數據分組

數據分組

數據分組的主要目的是觀察數據的分佈特徵。數據分組的方法有單變數值分組和組距分組兩種。由於分組的目的之一是觀察數據分佈的特徵,因此組數的多少應適中。

簡介


數據分組是根據統計研究的需要,將原始數據按照某種標準化分成不同的組別,分組后的的數據稱為分組數據。數據分組的主要目的是觀察數據的分佈特徵。數據分組后再計算出各組中數據出現的的頻數,就形成了一張頻數分佈表

分組方法


數據分組的方法有單變數值分組和組距分組兩種。
單變數值分組
單變數值分組是把一個變數值作為一組,這種分組通常值適合離散變數,而且在變數值較少的情況使用。
連續變數或變數值較多的情況下,通常採用組距分組。它是將全部變數值依次劃分為若干區間,並將這一區間的變數值作為一組。在組距分組中,一個組的最小值稱為下限;一個組的最大值稱為上限。
分組原則
採用組距分組時,需要遵循不重不漏的原則。不重是指一項數據只能分在其中的某一組,不能在其他組中重複出現;不漏是指組別能夠窮盡,即在所分的全部組別中每一項數據都能分在其中的某一組,不能遺漏。
分組步驟
第1步:確定組數。一組數據分多少組合適呢?一般與 數據本身的特點及數據的多少有關。由於分組的目的之一是觀察數據分佈的特徵,因此組數的多少應適中。如果組數太少,數據的分佈就會過於集中,組數太多,數據分佈就會過於分散,這都不便於觀察數據分佈的特徵和規律。組數的確定應以能夠顯示數據的分佈特徵和規律為目的。一般情況下,一組數據所分的組數應不少於5組且不多於15組。實際應用時,可根據數據的多少和特點及分析要求來確定組數。
第2步:確定各組的組距。組距是一個組的上限與下限的差。組距可根據全部數據的最大值和最小值及所分的組數來確定,及組距=(最大值—最小值)/組數。
第3步:根據分組整理成頻數分佈表。