統計描述
統計描述
它研究如何用科學的方法去搜集、整理、分析經濟和社會發展的實際數據,並通過統計所特有的統計指標和指標體系,表明所研究的社會經濟現象的規模、水平、速度、比例和效益,以反映社會經濟現象發展規律在一定時間、地點、條件下的作用,描述社會經濟現象數量之間的關係和變動規律,也是進一步學習其他相關學科的基礎。
主要包括平均指標和變異指標的計算、資料分佈形態(或特徵)的圖形表現等。
描述性統計指標的計算可以用四個不同的過程來實現,它們分別是means過程、summary過程、univariate過程以及tabulate過程。它們在功能範圍和具體的操作方法上存在一定的差別,下面大概了解一下它們的異同點。
相同點:
他們均可計算出均數、標準差、方差、標準誤、總和、加權值的總和、最大值、最小值、全距、校正的和未校正的離差平方和、變異係數、樣本分佈位置的t檢驗統計量、遺漏數據和有效數據個數等,均可應用by語句將樣本分割為若干個更小的樣本,以便分別進行分析。
不同點:
(1)means過程、summary過程、univariate過程可以計算樣本的偏度(skewness)和峰度(kurtosis),而tabulate過程不計算這些統計量;
(2)univariate過程可以計算出樣本的眾數(mode),其它三個過程不計算眾數;
(3)summary過程執行后不會自動給出分析的結果,須引用output語句和print過程來顯示分析結果,而其它三個過程則會自動顯示分析的結果;
(4)univariate過程具有統計製圖的功能,其它三個過程則沒有;
(5)tabulate過程不產生輸出資料文件(存儲各種輸出數據的文件),其它三個均產生輸出資料文件。
以上是它們的主要異同點,其它更為具體的異同點需要在實際應用中去體會。掌握了各種過程的異同點,就可以根據具體需要選擇最佳的過程進行工作。
統計製圖的過程均可以實現對樣本分佈特徵的圖形表示,一般情況下可以使用的有chart過程、plot過程、gchart過程和gplot過程。大家有沒有發現前兩個和后兩個只有一個字母‘g’(代表graph)的差別,其實它們之間(只差一個字母g的過程之間)的統計描述功能是相同的,區別僅在於繪製出的圖形的複雜和美觀程度。
chart過程和plot過程繪製的圖形類似於用文本字元堆積起來的圖形,只能概括地反映出資料分佈的大體形狀,實際上這兩個過程繪製的圖形並不能稱之為圖形,因為他根本就沒有涉及一般意義上圖形的任何一種元素(如顏色、解析度等)。
而gchart過程和gplot過程給出的是真正意義上的圖形,可以用很多的語句和選項來控制圖形的各方面的性質和特徵。
chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪製出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,后兩個過程通常用一個記錄中的兩個變數值表示點的坐標來繪製圖形,如散點圖和線圖等。
過程
proc means 選項列表; |
by 變數名稱(分組變數); |
class 變數名稱(分組變數); |
freq變數名稱(數值變數,用以表示相應記錄出現的頻數) |
var 變數名稱(待分析的數值變數); |
run; |
Proc means 語句后的選項主要用來指定所要計算的統計量,默認情況下,Means過程會給出頻數、均數、標準差、最大值和最小值等,其餘統計量的計算均需要在選項中指定。class語句所指定的分組變數用來進行分組,而by語句所指定的分組變數是用來將數據分為若干個更小的樣本,以便SAS分別在各小樣本內進行各自獨立的處理。freq語句和weight語句分別引導代表記錄出現頻數和權重係數的數值變數。var語句引導所要進行分析的所有變數的列表,SAS將對var語句所引導的所有變數分別進行描述性統計分析。
summary
proc summary 選項列表; |
by 變數名稱(分組變數); |
class 變數名稱(分組變數); |
freq變數名稱(數值變數,用以表示相應記錄出現的頻數) |
output |
var 變數名稱(待分析的數值變數); |
run; |
summary過程的格式和means過程可以說是完全相同的,各條語句和選項的含義也是相同的,包括在means過程中未列出的output語句也可以應用於means過程,只是此語句在summary過程應用較多(這樣才能將分析結果顯示出來),所以才將其列入一般格式中。output語句用來對分析結果輸出為數據文件進行控制,其後的選項可有可無,若無則SAS按照默認方式進行。“out=數據集名”用來定義輸出數據文件的文件名稱,文件名的格式和數據步中數據文件名相同。“統計量關鍵字=自定義變數名”用來自定義輸出數據文件中各種統計量的變數名稱,前者是系統定義的(和proc語句后選項中的統計量關鍵字完全相同),必須正確無誤,後者可自行定義。默認狀態下輸出統計量只有頻數、均數、標準差、最大值和最小值,在默認狀態不能滿足需要時這一選項則是必需的。
univariate
proc univariate 選項列表; |
by 變數名稱(分組變數); |
class 變數名稱(分組變數); |
freq變數名稱(數值變數,用以表示相應記錄出現的頻數) |
weight變數名稱(數值變數,用以表示相應記錄的權重係數) |
histogram 變數名稱/選項列表 |
var 變數名稱(待分析的數值變數); |
run; |
univariate過程和以上兩個過程的格式非常相似,相同的語句和選項其含義也相同,所不同的是某些統計量只能在univariate過程中計算(如眾數),以及univariate過程中所具有的繪圖功能。histogram語句即用來指示SAS對其後所指定的變數繪製直方圖,其後的選項用來指示SAS添加不同類型的擬合圖形(如正態分佈的分佈密度曲線)。
tabulate
proc tabulate 選項列表; |
by 變數名稱(分組變數); |
class 變數名稱(分組變數); |
freq變數名稱(數值變數,用以表示相應記錄出現的頻數) |
<<頁變數表達式>,<行變數表達式>,<列變數表達式>>表格選項> |
var 變數名稱(待分析的數值變數,統計量列入相應的表單元格); |
run; |
tabulate過程和上述幾個過程的格式也基本相似,相同的語句和選項也代表相同的含義。最大的不同也是tabulate過程中最為重要的是table語句,他用來定義表格的具體格式以及表格中所要包括的統計量。
gchart
proc gchart 選項列表; |
圖形關鍵詞 變數名稱/選項列表 |
run; |
此過程格式簡單,複雜的地方在於圖形關鍵字(每個圖形關鍵字對應一種圖形類型)所引導的語句,這裡是控制圖形類型及圖形要素的地方,涉及到眾多的關鍵字和選項。gchart過程可以使用的圖形關鍵字及其所繪製的圖形類型見下表(表2.1)。
表2.1 gchart過程可以使用的圖形關鍵字及其所繪製的圖形類型
圖形關鍵字 | 繪製的圖形類型 | 圖形關鍵字 | 繪製的圖形類型 |
block | 方塊圖 | pie | 圓圖 |
hbar | 水平的條形圖 | pie3d | 三維圓圖 |
hbar3d | 水平的三維條形圖 | donut | 環形圖 |
vbar | 豎立的條形圖 | star | 星形圖 |
vbar3d | 豎立的三維條形圖 |
圖形關鍵字后的變數名用以指定進行圖形描述時的分組變數,可以是數值型的(此時以各組的組中值為分組的標誌),也可以是字元型的。其後的選項比較重要的有:
(1)type=統計量關鍵字,表示以圖形對變數(sumvar所指定的變數)的哪一種統計量進行描述,比如頻數(freq)、均數(mean)、總計(sum)、頻數百分比(pctn)等;
(2)subgroup=變數名(分組變數),指定要進行分組(各組段內再分組)的變數;
(3)sumvar=變數名(數值變數),指定要進行統計計算的變數,也就是“type=統計量關鍵字”選項中統 計量的計算所依據的變數。其它的選項較少用到或系統默認值即可基本滿足要求,這裡還是少啰嗦,以後用到再說。
gplot
proc gplot 選項列表; |
bubble 散點圖表達式 |
bubble2 散點圖表達式 |
plot散點圖表達式 |
plot2散點圖表達式 |
run; |
從gplot過程的一般格式中就可看出,此過程只能繪製兩種類型的圖形,bubble語句指示SAS繪製泡狀散點圖,plot語句指示SAS繪製點狀散點圖。bubble2語句和plot2語句指示SAS在同一區域內(bubble2和bubble在同一區域,plot2和plot在同一區域)繪製第二個圖形,兩者的橫坐標相同(同一變數),縱坐標分別位於左右兩側(可以是同一變數,也可以是兩個不同的變數)。
散點圖表達式的一般形式為:
(1)bubble和bubble2語句:縱坐標變數名*橫坐標變數名=泡尺寸變數名(變數值以泡的大小表示),三者均應為數值變數;
(2)plot和plot2語句:縱坐標變數名*橫坐標變數名<=n/分類變數名>,此處等號及其後的部分可以省略,此時SAS以默認的散點類型繪製散點圖;若等號後為n(n為正整數,是散點類型的編號),SAS則以指定的編號對應的散點類型繪製散點圖;若等號後為分類變數名(可為字元型或數值型,為數值型時作為離散型變數處理,每一個值將被當作一個類別),此變數的具體值(或與每個具體值對應的圖形)將被作為散點用來繪製散點圖。
chart過程和plot過程的一般格式及各選項使用方法分別與gchart過程和gplot過程是基本相同的,不同之處僅在於后兩者中涉及到有關三維和圖形元素(顏色等)的語句和選項在前兩者中是無效的。例如vbar3d語句在chart過程中無效,bubble語句在plot過程中無效。其餘的語句和選項使用方法完全相同,所以在掌握了gchart過程和gplot過程后,chart過程和plot過程你會不學自通。
SAS中可計算的描述性統計量多達二十餘種,大部分可在以上介紹的前四個過程中計算,個別統計量在某些過程中不能計算,大家需要注意,要不然系統顯示錯誤信息時還不知道是怎麼回事。
經常遇到這種情況,系統提示錯誤(此類提示信息顯示在log窗口中)時總是摸不著頭腦,費半天勁才能搞明白。沒辦法,摸著石頭過河嘛!不過這樣也並非一無是處,最起碼可以積累很多使用經驗。
下表(表2.2)列出SAS中可以計算的所有描述性統計量關鍵字及其含義,供大家使用時參考。
表2.2 SAS中可以計算的描述性統計量關鍵字及其含義
關鍵字 | 所代表的含義 |
n | 有效數據記錄數 |
nmiss | 缺失數據記錄數 |
mean | 均數 |
std | 標準差 |
stderr | 標準誤 |
var | 方差 |
median | 中位數 |
mode | 眾數 |
cv | 變異係數 |
max | 最大值 |
min | 最小值 |
range | 全距 |
sum | 總計 |
sumwgt | 加權值總計 |
css | 校正的離均差平方和 |
uss | 未校正的離均差平方和 |
clm | 可信限(上下界值) |
lclm | 可信限下側界值 |
uclm | 可信限上側界值 |
skew(skewness) | 偏度 |
kurt(kurtosis) | 峰度 |
t | 分佈位置假設檢驗之t統計量 |
probt | 上述t統計量對應的概率值 |
q1 | 第一四分位數 |
q3 | 第三四分位數 |
qrange | 四分位數間距 |
p1 | 第一百分位數 |
p5 | 第五百分位數 |
p10 | 第十百分位數 |
p90 | 第九十百分位數 |
p95 | 第九十五百分位數 |
p99 | 第九十九百分位數 |