一、正態假設的第一原則:
這種假設通常不適用于未經處理的原始數據,而是用于模型的殘差項或誤差項。例如,根據公司的總資產(x1)和攤銷年限(x2),您可以使用此標準回歸模型來預測收購的商譽(Y):
Y=b0+β1X1+β2X2+ε,其中ε代表殘差或預測誤差(模型預測與你實際觀測的差異);B0代表常數項;β1,β2代表預測變量X1,X2的系數。在這個模型中,商譽(Y)不是正常假設的,而是殘值ε。所以,在這種情況下,衡量正態性假設的有效性不是衡量商譽的正態性,而是通過回歸分析計算殘差,衡量殘差的正態性。在這種情況下,我們應該尋求近似正態,而不是完全正態。原始數據商譽的極端非正態性是殘差很可能是極端非正態性的指標,是成立的。但在很多情況下,原始數據并不是近似正態的,殘差才是。這是因為原始數據包含了X變量的影響,在本例中是總資產和攤銷。
第二,關于正態分布和正態假設的第二個重要原理是中心極限定理:
極限定理指出,無論原始數據的分布是什么,隨機樣本中計算出的平均值都趨向于服從正態分布。換句話說,即使商譽極度偏斜,我們也可以通過分析五次不同收購的平均值,發現它是一個近似的正態分布。這個理論的實際影響是,當我們用統計分析工具分析均值不是單一值的時候,可以不那么關注正態性。例如,標準t檢驗和方差分析均值檢驗。所以均值分析的統計分析工具對正態假設都不敏感,即在原始數據不正態時也非常有效。所以我建議在講授T檢驗和方差分析之前,不必過于強調正態性檢驗。
對于非正態數據(或偏態分布),我通常會采取以下策略處理,供讀者參考。
1.什么都不做:也就是說,像數據正態分布一樣繼續做。當滿足以下三個標準中的任何一個時,這個方法是理想的:
A.數據大致正常;
B.統計分析工具的使用是基于均值的;
C.使用的統計分析工具對正態假設不敏感。
對于超常數據,經過正態檢驗分析,一般不是正態分布。因為現實中的數據并不是完全正態的,同時,上萬甚至十萬的大容量樣本提供了足夠的統計能力,可以檢測出與完全正態分布的微小差異。在許多這樣的情況下,數據圖表揭示了一個近似的正態分布,這對于實際應用是足夠的。如果用T檢驗或方差分析等技術來比較平均值,中心極限定理會降低正態假設的重要性。所以有了這個方法,你很少需要考慮常態。即使只有五個樣本,不管是否正常,都可以繼續使用這些建議。此外,回歸分析中的系數估計是另一個對正態假設不敏感的技術例子。
2.使用適當的分布識別技術:在某些情況下,您可以確定數據服從哪種特殊的非正態分布。例如,一些周期性時間數據往往服從威布爾分布。幸運的是,一些統計分析工具有處理威布爾分布數據的特殊菜單。類似于廣義線性模型的回歸分析方法可以使用戶恰當地分析大量服從不同分布的數據,包括指數分布甚至離散分布。
3.使用非參數統計分析工具:這個方法特別適用于你不知道數據會滿足什么分布的時候。這些方法沒有特殊的概率分布假設,因此適用于大量的潛在問題和數據;但有一點要記住,一般的非參數建議不如基于特定分布的檢驗有效。
4.使用變換:當變換是一個非線性函數時,至少在某些情況下,可以將偏斜的數據歸一化為近似正態。常用的有對數,平方根,(特別是對于離散數據)和倒數。為了找到合適的變換,可以使用Box-Cox方法。但是分享成果的時候,記得把換的單位轉回原單位,不然別人看不懂。
總之,制造領域之外的六西格瑪中的很多數據都不是正態分布或者接近正態分布。盡管正態假設在統計學中可能很重要,但在許多情況下并非如此。即使這個假設很重要,六西格瑪黑帶應該能夠使用有效的分析工具來分析這些數據。所以,正規性不足是一個值得考慮的技術問題,但并不是恰當應用六西格瑪 方法的障礙。