共找到2條詞條名為卡方檢驗的結果 展開

卡方檢驗

一種假設檢驗方法

卡方檢驗是用途非常廣的一種假設檢驗方法,它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

基本原理


卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趨於符合,若兩個值完全相等時,卡方值就為0,表明理論值完全符合。
注意:卡方檢驗針對分類變數。

步驟


(1)提出原假設:
H0:總體X的分佈函數為F(x).
如果總體分佈為離散型,則假設具體為
H0:總體X的分佈律為P{X=xi}=pi, i=1,2,...
(2)將總體X的取值範圍分成k個互不相交的小區間A1,A2A3,…,Ak,如可取
A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),
其中a0可取-∞,ak可取+∞,區間的劃分視具體情況而定,但要使每個小區間所含的樣本值個數不小於5,而區間個數k不要太大也不要太小。
(3)把落入第i個小區間的Ai的樣本值的個數記作fi,成為組頻數(真實值),所有組頻數之和f1+f2+...+fk等於樣本容量n。
(4)當H0為真時,根據所假設的總體理論分佈,可算出總體X的值落入第i 個小區間Ai的概率pi,於是,npi就是落入第i個小區間Ai的樣本值的理論頻數(理論值)。
(5)當H0為真時,n次試驗中樣本值落入第i個小區間Ai的頻率fi/n與概率pi應很接近,當H0不真時,則fi/n與pi相差很大。基於這種思想,皮爾遜引進如下檢驗統計量,在0假設成立的情況下服從自由度為k-1的卡方分佈
卡方檢驗
卡方檢驗

檢驗方法


自由度為1
假設有兩個分類變數X和Y,它們的值域分別為{x1, x2}和{y1, y2},其樣本頻數列聯表為:
y1y2總計
x1aba+b
x2cdc+d
總計a+cb+da+b+c+d
若要推斷的論述為H1:“X與Y有關係”,可以利用獨立性檢驗來考察兩個變數是否有關係,並且能較精確地給出這種判斷的可靠程度。具體的做法是,由表中的數據算出統計變數K^2的值(即K的平方)
K^2的值越大,說明“X與Y有關係”成立的可能性越小。
當表中數據a,b,c,d都不小於5時,可以查閱下表來確定結論“X與Y有關係”的可信程度:
P(K^2≥k)0.500.400.250.150.10
k0.4550.7081.3232.0722.706
P(K^2≥k)0.050.0250.0100.0050.001
k3.8415.0246.6357.87910.828
例如,當“X與Y有關係”的K^2變數的值為6.109,根據表格,因為5.024≤6.109<6.635,所以“X與Y有關係”成立的概率為0.025,即2.5%。
化妝15(55)95(55)110
不化妝85(45)5(45)90
100100200
如果性別和化妝與否沒有關係,四個格子應該是括弧里的數(期望值,用極大似然估計55=100*110/200,其中110/200可理解為化妝的概率,乘以男人數100,得到男人化妝概率的似然估計),這和實際值(括弧外的數)有差距,理論和實際的差距說明這不是隨機的組合。
應用擬合度公式 = 129.3>10.828
卡方檢驗
卡方檢驗
顯著不相關,作此推論犯錯的概率p>0.999,即99.9%。
註:獨立四格表的擬合度公式可以寫成n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)
總結:獨立四格表資料檢驗
四格表資料的卡方檢驗用於進行兩個率或兩個構成比的比較。
1. 專用公式:
四格表資料四個格子的頻數分別為a,b,c,d,則四格表資料卡方檢驗的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用擬合度公式)
自由度v=(行數-1)(列數-1)=1
2. 應用條件:
要求樣本含量應大於40且每個格子中的理論頻數不應小於5。當樣本含量大於40但有1=<理論頻數<5時,卡方值需要校正,當樣本含量小於40或理論頻數小於1時只能用確切概率法計算概率。
卡方檢驗
卡方檢驗

資料檢驗


(自由度df=(C-1)(R-1))
行×列表資料的卡方檢驗用於多個率或多個構成比的比較。
1. 專用公式:
r行c列表資料卡方檢驗的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]
2. 應用條件:
要求每個格子中的理論頻數T均大於5或1
列聯表資料檢驗
同一組對象,觀察每一個個體對兩種分類方法的表現,結果構成雙向交叉排列的統計表就是列聯表
1. R*C 列聯表的卡方檢驗:
R*C 列聯表的卡方檢驗用於R*C列聯表的相關分析,卡方值的計算和檢驗過程與行×列表資料的卡方檢驗相同。
2. 2*2列聯表的卡方檢驗:
2*2列聯表的卡方檢驗又稱配對記數資料或配對四格表資料的卡方檢驗,根據卡方值計算公式的不同,可以達到不同的目的。當用一般四格表的卡方檢驗計算時,卡方值=n(ad-bc)^2/[(a+b)(c+d)(a+c)(b+d)],此時用於進行配對四格表的相關分析,如考察兩種檢驗方法的結果有無關係;當卡方值=(|b-c|-1)2/(b+c)時,此時卡方檢驗用來進行四格表的差異檢驗,如考察兩種檢驗方法的檢出率有無差別。
列聯表卡方檢驗應用中的注意事項同R*C表的卡方檢驗相同。

代碼實驗


在分類資料統計分析中我們常會遇到這樣的資料,如兩組大白鼠在不同致癌劑作用下的發癌率如下表,問兩組發癌率有無差別?
處理發癌數未發癌數合計發癌率%
甲組52197173.24
乙組3934292.86
合計912211380.53
52 19
39 3
這是表中最基本的數據,因此上表資料又被稱之為四格表資料。卡方檢驗的統計量是卡方值,它是每個格子實際頻數A與理論頻數T差值平方與理論頻數之比的累計和。每個格子中的理論頻數T是在假定兩組的發癌率相等(均等於兩組合計的發癌率)的情況下計算出來的,如第一行第一列的理論頻數為71*(91/113)=57.18,故卡方值越大,說明實際頻數與理論頻數的差別越明顯,兩組發癌率不同的可能性越大。
卡方檢驗要求:最好是大樣本數據。一般每個個案最好出現一次,四分之一的個案至少出現五次。如果數據不符合要求,就要應用校正卡方。
利用統計學軟體分析結果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
統計量自由度概率
卡方16.47770.0109(顯著)
似然比卡方17.31010.0069
連續校正卡方15.28680.0215
Mantel-Haenszel 卡方16.42030.0113
Phi 係數-0.2394
列聯繫數0.2328
Cramer 的 V-0.2394
  • 目錄