組距

組距

組距分組是將全部變數值依次劃分為若干個區間,並將這一區間的變數值作為一組。組距分組是數值型數據分組的基本形式。在組距分組中,各組之間的取值界限稱為組限,一個組的最小值稱為下限,最大值稱為上限;上限與下限的差值稱為組距;上限與下限值的平均數稱為組中值,它是一組變數值的代表值

步驟

例如,某生產車間50名工人日加工零件數如下(單位:個)。試對數據進行組距分組。
117
108
110
112
137 122
131
118
134
114 124
125
123
127
120 129
117
126
123
128 139
122
133
119
124 107
133
134
113
115 117
126
127
120
139 130
122
123
123
128 122
118
118
127
124 125
108
112
135
121
採用組距分組需要經過以下幾個步驟:

第一步

確定組數。一組數據分多少組合適呢?一般與數據本身的特點及數據的多少有關。由於分組的目的之一是為了觀察數據分佈的特徵,因此組數的多少應適中。如組數太少,數據的分佈就會過於集中,組數太多,數據的分佈就會過於分散,這都不便於觀察數據分佈的特徵和規律。組數的確定應以能夠顯示數據的分佈特徵和規律為目的。在實際分組時,可以按Sturges提出的經驗公式來確定組數K:
其中n為數據的個數,對結果用四捨五入的辦法取整數即為組數。例如,對前例的數據有:,即應分為7組。當然,這只是一個經驗公式,實際應用時,可根據數據的多少和特點及分析的要求,參考這一標準靈活確定組數。

第二步

確定各組的組距。組距是一個組的上限與下限的差,可根據全部數據的最大值和最小值(即極差)及所分的組數來確定,即組距=(最大值-最小值)÷組數。例如,對於前例的數據,最大值為139,最小值為107,則組距=(139-107)÷7=4.6。為便於計算,組距宜取5或10的倍數,而且第一組的下限應低於最小變數值,最後一組的上限應高於最大變數值,因此組距可取5。

第三步

根據分組整理成頻數分佈表。比如對上面的數據進行分組,可得到下面的頻數分佈表,見表:
某車間50名工作日加工零件數分組表
按零件數分組 頻數(人)頻率(%)
105-110
110-115
115-120
120-125
125-130
130-135
135-140
3
5
8
14
10
6
4 6
10
16
28
20
12
8
合計 50 100

原則

採用組距分組時,需要遵循“不重不漏”的原則。“不重”是指一項數據只能分在其中的某一組,不能在其他組中重複出現;“不漏”是指組別能夠窮盡,即在所分的全部組別中每項數據都能分在其中的某一組,不能遺漏。
為解決“不重”的問題,統計分組時習慣上規定“上組限不在內”,即當相鄰兩組的上下限重疊時,恰好等於某一組上限的變數值不算在本組內,而計算在下一組內。例如,在表的分組中,120這一數值不計算在“115-120”這一組內,而計算在“120-125”組中,其餘類推。當然,對於離散變數,可以採用相鄰兩組組限間斷的辦法解決“不重”的問題。例如,可對上面的數據做如下的分組,如表:
某車間50名工人日加工零件數分組表
按零件數分組 頻數(人)頻率(%)
105-109
110-114
115-119
120-124
125-129
130-134
135-139 3
5
8
14
10
6
4 6
10
16
28
20
12
8
合計 50 100
而對於連續變數,可以採取相鄰兩組組限重疊的方法,根據“上組限不在內”的規定解決不重的問題,也可以對一個組的上限值採用小數點的形式,小數點的位數根據所要求的精度具體確定。例如,對零件尺寸可以分組為10-11.99、12-13.99、14-15.99,等等。
在組距分組中,如果全部數據中的最大值和最小值與其他數據相差懸殊,為避免出現空白組(即沒有變數值的組)或個別極端值被漏掉,第一組和最後一組可以採取“××以下”及“××以上”這樣的開口組。開口組通常以相鄰組的組距作為其組距。例如,在上面的50個數據中,假定將最小值改為94,最大值改為160,採用上面的分組就會出現“空白組”,這時可採用“開口組”,如表:
某車間50名工人日加工零件數分組表
按零件數分組 頻數(人)頻率(%)
110以下
110-115
115-120
120-125
125-130
130-135
135以上 3
5
8
14
10
6
4 6
10
16
28
20
12
8
合計 50 100
為了統計分析的需要,有時需要觀察某一數值以下或某一數值以上的頻數或頻率之和,還可以計算出累積頻數或累積頻率。