離散趨勢

觀測值偏離中心的分佈情況

在統計學上描述觀測值偏離中心位置的趨勢,反映了所有觀測值偏離中心的分佈情況。

介紹


計量資料的頻數分佈有集中趨勢和離散趨勢兩個主要特徵。僅僅用集中趨勢來描述數據的分佈特徵是不夠的,只有把兩者結合起來,才能全面地認識事物。我們經常會碰到平均數相同的兩組數據其離散程度可以是不同的。一組數據的分佈可能比較集中,差異較小,則平均數的代表性較好。另一組數據可能比較分散,差異較大,則平均數的代表性就較差。描述一組計量資料離散趨勢的常用指標有極差、四分位數間距、方差、標準差、標準誤差和變異係數等,其中方差和標準差最常用。

極差


極差又稱全距,是指一組數據的觀察值中的最大值和最小值之差。用公式表示為:
極差=最大觀察值-最小觀察值
極差的計算較簡單,但是它只考慮了數據中的最大值和最小值,而忽略了全部觀察值之間的差異。兩組數據的最大值和最小值可能相同,於是它們的極差相等,但是離散的程度可能相當不一致。由此可見,極差往往不能反映一組數據的實際離散程度,極差所反映的僅僅是一組數據的最大的離散值。極差是最簡單的變異指標,但是,太簡單,因此,只用於一般預備性檢查。

平均差


平均差是指一組數據中的各數據對平均數的離差絕對值的平均數。一組數據中的各數據對平均數的離差有正有負,其和為零,因此平均差必須用離差的絕對值來計算。平均差愈大,表示數據之間的變異程度越大,反之則變異程度越小。

標準差


平均差用絕對值來度量,雖然避免了正負離差的相互抵消,但不便於運算。一般情況下,可用方差來度量一組數據的離散性。方差通常用字母σ2來表示。
為了使統計量的單位同觀察值的單位相一致,通常將方差開平方,即得到標準差σ,標準差也稱為均方差。由定義可知,方差和標準差所反映的是一組數據對其均值為代表的中心的某種偏離程度。從定義可知,標準差(或方差)較小的分佈一定是比較集中在均值附近的,反之則是比較分散的。標準差的缺點是計算起來比較麻煩。標準差也是根據全部數據來計算的,但是它也會受到極端值的影響。標準差的計算要比平均差方便,因此,標準差是描述數據離散趨勢最常用的統計量。
在統計中我們通常用\sigma^2和\sigma分別表示總體的方差和標準差。當總體中的個體數很大,希望通過抽樣,用樣本標準差來估計總體的標準差時,就需要計算樣本的方差和標準差。僅需要對總體方差和標準差的計算公式作一些調整即可。
標準差的概念在統計上具有重要的作用。對於任意一個總體,在確定了標準差以後,就可以精確地確定總體中的單位落在平均數兩側某個範圍內的頻率大小。對於正態分佈的情形,在下一小節中,我們將介紹數據落在某個特定範圍內概率的大小及其意義。
補充:正是因為標準差的計算應用到每一個變數值,所以,會受到極端值的影響。當數據中有較明顯的極端值時不宜使用。實際上,標準差的適用範圍應當是服從正態分佈的數據。
標準差和方差因為計算中應用到每一個變數值,所以,它們反映的信息在離散指標中是最全的,也是最可靠,最理想的變異描述指標。
spss有專門一章是方差分析的,這一章是聯繫基本統計分析和多元統計分析的橋樑。但是,必須知道這一點:所有方差分析的前提是:樣本總體服從正態分佈,這是非常重要的。如果不服從,就要有補救措施。其實,要想樣本服從正態分佈,就最好樣本量大一些。有些數據的本質就不是正態分佈,所以,方差分析雖然應用很廣,但是,並不是萬能的

變異係數


標準差是表示所有數據離散性大小的一個絕對值,其度量單位與原數據的度量單位相同。因此,標準差只能度量一組數據對其均值的偏離程度。但若要比較兩組數據的離散程度,用兩個標準差直接進行比較有時就顯得不合適了。例如一個總體的標準差是10,均值是lO0。如果另有一個總體的標準差是20,均值是2000。如果直接用標準差來進行比較,后一總體的標準差是前一總體標準差的2倍,似乎前一總體的分佈集中,而後一總體的分佈分散。但前一總體用標準差來衡量的各數據的差異量是其均值的1/10;后一總體用標準差來衡量的各數據差異是其均值的1/100,是微不足道的。可見用標準差與均值的比值大小來衡量不同總體數據的分散程度更合理。統計上把這一比例稱為變異係數。其實,變異係數就是為了消除測量尺度和量綱的影響,變異係數本身沒有量綱,但是它按照其均數大小進行標準化,這樣就可以客觀比較。