Normality Test

每年八月至十一月是蘋果的收成期,果園裡的蘋果結實累累,你細心的剪去多餘的樹葉,讓蘋果均勻日晒,以便好上色變紅。一陣辛勤工作之後,你忽然想知道今年的收成如何,所以你在蘋果樹間來回穿梭,隨機測量了一些蘋果的大小。那麼,你心裡嘀估著:「要如何知道這些蘋果能否代表整個蘋果園的收成情形呢 ? 」。

這時候我們需要「常態性檢定」。

什麼是常態分布

常態分布及其特色

在進行常態性檢定之前,我們先看看常態分布是什麼樣子。

由圖可知,曲線左右對稱且資料集中在正中央,再向二個尾端遞減,所以呈現出一種「鐘形曲線」。這樣的曲線最早在 1733 年由法國數學家棣美弗 (Abraham de Moivre) 在投擲硬幣時所觀察到,並在他出版的書中介紹此概念 (此書在當時可算是賭客們的指南書)。隨後由才華洋溢的德國數學家、又名「數學王子」的高斯 (Johann Carl Friedrich Gauss) 所確立。而最早將常態分布應用在醫學領域上的則是達爾文的表兄弟、高爾頓爵士 (Sir Francis Galton)。

常態分布還有一些特性例如:

  1. 平均值、中位數和眾數,三者是同一個值
  2. 大約有 68% 的觀測值會落在中央左右二側的一個標準差 σ 之內,95% 的觀測值會落在二個標準差之內
  3. 常態曲線以平均值 μ 為中心,左右兩側正負一個標準差 σ 的地方,即曲線上所謂的反曲點 (infection point)
  4. 理論上這個曲線會向二個尾端無限延伸

自然界中具有這種形態分布的資料十分常見,例如身高體重、智商、蘋果的大小、甚至銀河系星光的亮度等。數學家們也很早就注意到,這個分布完全由群體的平均值 μ 和標準差 σ 所決定。也就是說,一旦知道了平均值和標準差,就可以掌握這個群體的所有資訊。

為什麼要檢定常態性

一些我們熟知的母數統計方法 (parametric statistical methods) 像是 t-test、ANOVA、Pearson correlation 以及 linear regression 等,他們的基本假設之一就是「依變項 (dependent variable) 須接近常態分布」。如果違反此假設的話,統計結果的解釋與推論可能是不正確的。

如何檢定常態性

檢定的方法可大致區分為圖形檢驗統計檢驗

圖形檢驗以視覺化的方式,呈現隨機變數的分布情形,或者比對樣本分布與理論分布 (例如標準常態分布) 的差異。

圖形檢驗

Stem-and-leaf plot, box plot, dot plot, histogram

P-P plot, Q-Q plot

統計檢驗則呈現資料的基本描述如偏態 (Skewness) 與峰度 (Kurtosis),或者執行常態檢定的統計分析。

統計檢驗:

Skewness, Kurtosis

Shapiro-Wilk, Shapiro- Francia test, Kolmogorov-Smirnov test (Lillefors test), Anderson-Darling test, Cramer-von Mises tests, Jarque-Bera test, Skewness-Kurtosis test

常見的圖形檢驗法

  • Histogram

直方圖是最直觀的方法,從資料頻率分布的輪廓,就可以直接檢視資料的分布情形是否接近鐘形。

  • Boxplot

箱形圖也是大家熟知的圖形,依序由最小值、第一四分位、中位數、第三四分位、最大值,以及離群值組成。箱子本身的形狀告訴了我們資料大致的分布狀況,如果分布是常態的,則Q1和Q3會對稱於中位數,且中位數會在箱子的正中央。離群值會影響分布,可是有時為了要十分符合常態分布,反而需要有很少部分的離群值。

箱形圖的好處是,我們不必計算平均數和標準差,就可以大約知道資料的散布情形。也因為如此,在分辦資料為非常態分布的能力較好一些。

  • Q-Q plot

Q-Q plot 以資料的分位數 (quantile, Y 軸) 對上欲檢驗分布的理論分位數 (X軸) 作圖,以圖示的方法,比較這兩個機率分布之間的型態為何。資料點散佈於圖上,並有一條常態線做為比較基準。換句話說,如果樣本資料接近常態分布,那麼資料點也會非常靠近基準線。

圖形檢驗的圖會在下文的範例中呈現。

常見的統計檢驗法

  • Skewness and Kurtosis

偏態 (Skewness) 主要用來衡量單峰分布的「對稱性」,以偏態係數 β1 來表示。如果 β1 > 0,即所謂的正偏態或右偏 (Positive skewness),也就是分布集中在平均值之下;反之 β1 < 0 時為負偏態或左偏 (Negative skewness),分布集中在平均值之上。如果是向中央對稱的分布,偏態係數 β1 = 0。

峰度 (Kurtosis) 用來衡量高峰分布的「高低」,以峰度係數 β2 來表示。常態分布的 β2 等於 3,以此做為分界的話, β2 > 3 表示資料集中在平均值附近及尾巴較長,屬於「高瘦」型的尖峰態 (leptokurtic),如果 β2 < 3 ,則資料聚集在平均值附近但較「圓胖」型的低峰態 (platykurtic) 。

一般來說,會同時考量分布的偏態與峰度,以偏態係數愈接近 0 (-0.5 ~ 0.5) 與峰度係數愈接近 3 (或峰度係數減 3 為 0) 做為標準常態分布的判斷依據。同時,偏態和峰度也都會受到樣本數大小的影響。

資料分布的偏態
資料分布的峰度

(圖引用自這個 post)

  • Shapiro-Wilk test

Shapiro-Wilk test 是最常使用的常態性檢測工具,他可以告訴我們隨機抽取出來的樣本是否來自於常態分布,當統計值 W 愈小,表示資料愈不可能來自常態分布。

  • Kolmogorov-Smirnov test

Kolmogorov-Smirnov test 是1933年由 Kolmogorov 所建立,隨後在1948年由 Smirnov 所修訂,可檢定樣本是否吻合某個特定的分布 (在這裡指的是常態分布),統計值 D 愈大,表示資料愈不可能來自常態分布。

  • Anderson-Darling test

Anderson-Darling test 由 Kolmogorov-Smirnov test 修改而來,同樣可檢定樣本是否吻合某個特定的分布,統計值 A2 愈大,表示資料愈不可能來自常態分布。

  • Cramer-von Mises test

Cramer-von Mises test 是一種利用經驗分布函數(empirical distribution function)來檢測常態分布的方法,類似於 Anderson-Darling,統計值 W2 愈大,表示資料愈不可能來自常態分布。

以 SAS 分析為例

統計軟體 SAS 提供上述常見的常態性檢定方法,我們以 SAS 內建的資料檔 iris 為例:

PROC UNIVARIATE data=sashelp.iris NORMAL PLOT;
VAR SepalLength;
HISTOGRAM SepalLength / NORMAL ;
QQPLOT SepalLength / NORMAL(mu=EST sigma=EST);
INSET MEAN STD /CFILL=BLANK FORMAT=5.2 ; 
run;

NORMAL option → 請 SAS 執行常態性檢定

PLOT option → 請 SAS 畫出莖葉圖及箱形圖

SepalLength → 鳶尾花的花萼長度,此次範例的主要分析變項

HISTOGRAM → 請 SAS 畫出資料的直方圖

QQPLOT → 請 SAS 畫出資料的 Q-Q plot

INSET statement → 請 SAS 在圖上加入摘要統計量

SAS 提供的直方圖 (Histogram)
SAS 提供的莖葉圖 (Stem-and-Leaf Diagram) 與箱形圖 (Box-plot)
SAS 提供的 Q-Q plot 及其統計量

從結果來看,鳶尾花花萼長度 (SepalLength) 平均值為 58.4,中位數為 58.0,兩者相當接近。偏態為 0.31,峰度為 -0.55,也都很接近零。由直方圖、箱形圖以及 Q-Q plot 也顯示樣本資料近似常態分布。然而,這種描述性(圖形化)統計的結果,無法給予決定性的資訊說明樣本是否真的有近似常態分布。

統計檢定的部分:

SAS 的常態性檢定提供四種常見的檢定方法,其檢定假設為:

H0 : The sample data are not significantly different than a normal population.

Ha: The sample data are significantly different than a normal population.

→ 如果接受虛無假設 H0,表示 (有信心相信) 資料近似常態分布

由統計結果來看,四種檢定方法的統計量與 p 值雖然不盡相同,但都拒絕了虛無假設 (接受了替代假說 Ha),也就是樣本資料不符合常態分布,和上述圖形化直觀方式的結果正好相反。

那麼,為什麼會出現這種違反直觀 (直覺) 的情況呢? 實際上這種現象可能經常會出現,以下方的圖示為例:

虛擬變項 H1 ~ H6 的直方圖分布

這六組虛疑資料的分布看起來離鐘形曲線都有些落差,可是實際上,他們在統計上全部都近似常態分布, 但無法從直方圖主觀做出判斷。

會有這種誤判是因為,直方圖的圖形分布會受到主觀分組範圍的影響,也就是分組大小會產生完全不同的圖形,例如完全相同的 H1 變項所畫的二個直方圖:

變項 H1 的二種不同分組方式

左圖看起來不太像常態分布,右圖則像比較像常態分布,而實際上二者的差別只是因為分組大小不同所產生的視覺誤差。

結論:我該使用哪一種方法?

圖形化檢定方式直覺而且好解釋,是否接近常態分布帶有相當的主觀成分。統計檢定則提供客觀的方式檢定常態性。

所以整體來說,若數種不同的統計檢定常態性的結果相似,就可以相信資料的常態性 (有信心這組數據可以用來預測今年蘋果產量);然而,如果統計結果之間的差異很大,可以選擇 Shapiro-Wilk test。有些模擬數據的研究指出,在比較偵測非常態性資料的能力時,Shapiro-Wilk test 有最好的檢測力,且需要的樣本數最小。也就是說,當樣本數愈大時,各種統計檢定方法偵測常態性的能力愈好,而當樣本數不大時 (例如 n=100~200),Shapiro-Wilk test 會是最推薦的方法,Anderson-Darling test 則是次佳的選擇。要注意的是,當樣本數太小時 (例如 n<50,甚至 n<30),各種檢定能力都會大打扣折,增加錯誤判斷的風險。

那麼,如果檢定結果是非常態,又該怎麼做呢?

下一期我們再聊「非常態」與「檢定非常態」。

參考文獻:

Razali NM, Wah YB. Power comparisons of Shapiro–Wilk, Kolmogorov– Smirnov, Lilliefors and Anderson–Darling tests. J Stat Modell Anal 2011;2(1):21–33.

Ahad NA, Yin TS, Othman AR & Yaacob CR. Sensitivity of Normality Test to Non-normal Data. Sains Malaysiana, 2011;40(6):637-641.

One Reply to “Normality Test”

如有任何問題和意見歡迎提出