圖1 用箱線圖和對應分布來檢驗四個假設檢驗分布
當一個數據組是完全對稱的時候,如同圖1a和圖1d那樣,此時均值和中位數是相等的。此外左邊圖形的長度等于右邊圖形的長度,中位數的線將圖形分成相等的兩部分。
當一個數據組如圖1b那樣是左偏斜的,那些小的樣本值分布于左側。對于這個假設的左偏斜的分布,75%的樣本值位于圖形的左端和右端之間。因此,長的左側或者右側包括最小的25%數據分布,描述了對稱分布的扭曲。
對于圖1c中右偏斜的數據,數值的集中趨勢位于范圍的底端。因此,所有樣本值中的75%位于圖形的最左端與右端之間,而且剩下的25%數據分散于圖形頂端。早晨準備時間Minitab箱線圖如圖2:
圖2 早晨準備時間數據的Minitab箱線圖
這個箱線圖表明準備時間近似為一個對稱分布。位于圖形中部的中位數線長度幾乎等于盒子兩端距離,而且whiskers的長度也不相同。
圖3展示了關于訂單完成時間的Minitab箱線圖,圖4展示了關于訂單完成時間的JMP箱線圖。
圖3 訂單準備時間的Minitab箱線圖
圖4 訂單準備時間的JMP箱線圖
注意到在圖3中,一個星號出現在箱線圖的右端。它表示一個數據中存在一個特別的值。與這個特別值不同,分布中的其他值近似于對稱的。在圖4中,JMP提供了沿著直方圖的兩個不同的箱線圖。上面的箱線圖是一個特別值的箱線圖并且可以分辨出特別值。
當對兩個或更多個組進行比較時,箱線圖就會特別有用。在這樣一種情況下,箱線圖會一個挨一個的展示,可以直接對不同組進行關于集中趨勢、變異和形狀的比較。
上一篇:什么是數據分布的形狀
下一篇:什么是概率?