統計分組
統計學的基本統計方法之一
統計分組就是根據統計研究的需要,按照一定的標誌,將統計總體劃分為若干個組成部分的一種統計方法。總體的這些組成部分,稱為“組”,也就是大總體中的小總體。通過統計分組,使同一組內的各單位在分組標誌的性質相同,不同組之間的性質相異。對統計總體進行分組,是由統計總體中各個總體單位所具有的“差異性”特徵所決定的。統計總體中的各個單位,一方面,在某一個或幾個標誌上具有相同的性質,可以被結合在同一性質的總體中;另一方面,又在其他標誌上具有彼此相異的性質,從而又可以被區分為性質不同的若干個組成部分。
統計分組兼有分與合兩方面的含義,是將總體區分為性質相異的若干部分;將性質相同的許多個體合成一個小組。
統計資料的整理的任務是使零散資料系統化,但怎樣使資料系統化,本著什麼去歸類,這就取決於統計分組。在取得完整、正確的統計資料前提下,統計分組的優劣是決定整個統計研究成敗的關鍵,它直接關係到統計分析的質量。
例如:將一所學校的人,根據老師,學生,男性,女性,年齡,成績,特長等標誌,進行分類統計。
是保持各組內,統計資料的一致性和組間資料的差異性,便於運用各種統計方法研究現象的數量表現和數量關係,從而正確地認識事物的本質及其規律。
科學的統計分組應遵循兩個原則:
1.必須符合“窮盡原則”,就是使總體中的每一個單位都應有組可歸,或者說各分組的空間足以容納總體的所有單位。
2.必須遵守“互斥原則“,即總體任一單位都只能歸屬於一組,而不能同時或可能歸屬於幾個組。
統計分組后所形成的一系列互相聯繫、互相補充的組的整體稱分組體系。分組體系有平行分組體系和複合分組體系兩種。平行分組體系是選擇兩個或兩個以上的標誌對總體進行一次次簡單分組后所形成的體系;複合分組體系就是複合分組后形成的體系。
分組標誌的選擇是統計分組的關鍵。分組標誌,即將同質總體區分為不同組的標準或依據。分組標誌一旦選定,就必然突出了總體在該標誌下的性質差別,其他的差別看不見了。分組標誌選擇不當,不但無法顯示現象的根本特徵,甚至會混淆事物的性質,歪曲社會經濟的真實情況。
正確選擇分組標誌,必須根據統計研究的任務目的,抓住反映現象本質區別和內在聯繫的標誌作為分組標誌。
統計分組必須遵循窮盡和互斥兩條原則。窮盡原則就是總體中的每一個單位都有組可歸,無一遺漏。互斥原則就是在特定的分組標誌下,總體中的任何一個單位只能歸屬於某一組,而不能同時歸屬於幾個組。
類型分組的目的是劃分經濟類型,結構分類的目的是研究同質總體的構成,分析分組的目的是研究現象總體內部諸標誌間的依從和制約關係。
簡單分組是將總體按一個標誌進行分組,複合分組是將總體按兩個或兩個以上的標誌重疊起來進行分組。
統計分組是確定社會經濟現象各種類型的基礎,例如將工業企業按所有制的不同、按輕重工業劃分,居民按城鎮、農村劃分,從而說明不同的經濟類型的特點。一般來說,社會經濟類型的分組多採用品質標誌來劃分。
通過統計分組可以反映總體內部各部分之間的差別和相互關係,表明總體的內部結構。同時在各組的基礎上計算各組所佔總體的比重,從總體的構成上認識總體各部分的作用,並對總體作出正確的評價。業人員的分佈情況,通過分組表明了從業人員在三次產業中的分佈,也顯示了人員在三次產業中的結構比重,說明這10年間中國的產業結構發生了很大的變化
社會經濟現象之間存在著相互制約、相互聯繫的關係,通過統計分組可以根據現象間的影響因素和結果因素的對應更好地揭示現象之間的這種依存關係。
概括
品質標誌上是說明事物的性質或屬性特徵的,它反映的是總體單位在性質上的差異,它不能用數值來表現。數量標誌是直接反映事物的數量特徵的,它反映的是事物在數量上的差異。如人口的年齡、企業的產值等。統計分組方法就是指這兩種標誌的具體分組方法。
品質標誌分組方法
品質標誌分組一般較簡單,分組標誌一旦確定,組數、組名、組與組之間的界限也就確定。有些複雜的品質標誌分組可根據統一規定的劃分標準和分類目錄進行。
數量標質分組方法
對離散變數,如果變數值的變動幅度小,就可以一個變數值對應一組,稱單項式分組。如居民家庭按兒童數或人口數分組,均可採用單項式分組。
也就是說,離散變數根據情況既可用單項式分組,也可用組距式分組。在組距式分組中,相鄰組既可以有確定的上下限,也可將相鄰組的組限重疊。
連續變數由於不能一一列舉其變數值,只能採用組距式的分組方式,且相鄰的組限必須重疊。如以總產值、商品銷售額、勞動生產率、工資等為標誌進行分組,就只能是相鄰組限重疊的組距式分組。
在相鄰組組限重疊的組距式分組中,若某單位的標誌值正好等於相鄰兩組的上下限的數值時,一般把此值歸併到作為下限的那一組(適用於連續變數和離散變數)。
組距式分組使資料的真實性受到一定程度的損害。組距式分組的假定條件是:變數在各組內的分佈都是均勻的(即各組標誌值呈線性變化)。
通過組距式分組以後,把各組內部各單位的次要差異抽象去了,而把各組之間的主要差異突出出來,這樣,各組分配的規律性可以更容易顯示出來。根據這個道理,如組距太小,分組過細,容易將屬於同類的單位劃分到不同的組,因而顯示不出現象類型的特點;但如果組距太大,組數太少,會把不同性質的單位歸併到同一組中,失去區分事物的界限,達不到正確反映客觀事實的目的。因此,組距的大小、組數的確定應根據研究對象的經濟內容和標誌值的分散程度等因素,不可強求一致。
等距分組和不等距分組
等距分組是各組保持相等的組距,也就是說各組標誌值的變動都限於相同的範圍。不等距分組即各組組距不相等的分組。
統計分組時採用等距分組還是不等距分組,取決於研究對象的性質特點。在標誌值變動比較均勻的情況下宜採用等距分組。等距分組便於各組單位數和標誌值直接比較,也便於計算各項綜合指標。在標誌值變動很不均勻的情況下宜採用不等距分組。不等距分組有時更能說明現象的本質特徵。
組限和組中值
組距兩端的數值稱組限。其中,每組的起點數值稱為下限,每組的終點數值稱為上限。上限和下限的差稱組距,表示各組標誌值變動的範圍。
組中值是上下限之間的中點數值,以代表各組標誌值的一般水平。組中值並不是各組標誌值的平均數,各組標誌數的平均數在統計分組后很難計算出來,就常以組中值近似代替。組中值僅存在於組距式分組數列中,單項式分組中不存在組中值。
組中值的計算是有假定條件的,即假定各組標誌值的變化是均勻的(與組距式分組的假定條件相同)。一般情況下,組中值=(上限+下限)÷2
對於第一組是“多少以下”,最後一組是“多少以上”的開口組,組中值的計算可參照鄰組的組距來決定。即:缺下限開口組組中值=上限—1/2鄰組組距,缺上限開口組組中值=下限+1/2鄰組組距。
按標誌的性質不同
按標誌的性質不同可分為品質標誌和數量標誌。按品質標誌分組是指用品質標誌將總體分為若干組來表示。按品質標誌分組,標誌一經確定,組數和組限都非常明顯。這些組在組限上、性質上都很明顯,不存在組與組之間界限難以劃分的問題。在統計工作中,對於比較複雜的分組則由上級統計機關或各業務主管部門統一編製標準的分類目錄供大家使用。
按數量標誌分組就是選擇反映社會經濟現象數量差異的數量標誌作為分組標誌,例如,職工按工資收入多少分組,工業企業按產值分組、按計劃完成程度分組等
按標誌的個數
按標誌的個數多少可分為簡單分組和複合分組。簡單分組是指按照一個標誌進行分組,如下圖
成績(分)【不含上限】 | 人數(人) |
60以下 | |
60~70 | |
70~80 | |
80~90 | |
90以上 | |
合 計 |
複合分組是指對同一個總體在同一張分組表上,把兩個或兩個以上標誌層疊起來進行分組,如下圖