卡方分佈
統計學概念
若n個相互獨立的隨機變數ξ₁,ξ₂,...,ξn ,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這n個服從標準正態分佈的隨機變數的平方和構成一新的隨機變數,其分佈規律稱為卡方分佈(chi-square distribution)。
卡方分佈
若n個相互獨立的隨機變數ξ₁、ξ₂、……、ξn ,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這n個服從標準正態分佈的隨機變數的平方和 構成一新的隨機變數,其分佈規律稱為 分佈(chi-square distribution),其中參數 稱為自由度,正如正態分佈中均數或方差不同就是另一個正態分佈一樣,自由度不同就是另一個 分佈。記為 或者(其中,為限制條件數)。
卡方分佈是由正態分佈構造而成的一個新的分佈,當自由度 很大時,分佈近似為正態分佈。
對於任意正整數x,自由度為 的卡方分佈是一個隨機變數X的機率分佈。
1) 分佈在第一象限內,卡方值都是正值,呈正偏態(右偏態),隨著參數 的增大,分佈趨近於正態分佈;卡方分佈密度曲線下的面積都是1.
2) 分佈的均值與方差可以看出,隨著自由度 的增大,χ2分佈向正無窮方向延伸(因為均值 越來越大),分佈曲線也越來越低闊(因為方差 越來越大)。
3)不同的自由度決定不同的卡方分佈,自由度越小,分佈越偏斜。
4) 若 互相獨立,則則是 服從 分佈,自由度為;
5)分佈的均數為自由度,即隨機 E() =。
6) 分佈的方差為2倍的自由度( ),記為 D( ) = 。
分佈不像正態分佈那樣將所有正態分佈的查表都轉化為標準正態分佈去查,在 分佈中得對每個分佈編製 分佈表中列出不同的自由度來表示,在 分佈表中還需要如標準正態分佈表中給出不同 P 值一樣,列出概率值,只不過這裡的概率值是 值以上 分佈曲線以下的概率。由於 到概率0.05這一列,行列的交叉處即是14.1。
表中所給值直接只能查單側概率值,可以變化一下來查雙側概率值。例如,要在自由度為7的卡方分佈中,得到雙側概率為0.05所對應的上下端點可以這樣來考慮:雙側概率指的是在上端和下端各劃出概率相等的一部分,兩概率之和為給定的概率值,這裡是0.05,因此實際上上端點以上的概率為0.05/2=0.025,用概率0.025查表得上端點的值為16,記為 0.05/2(7)=16。下端點以下的概率也為0.025,因此可以用0.975查得下端點為1.69,記為 1-0.05/2(7)=1.69。
當然也可以按自由度及 值去查對應的概率值,不過這往往只能得到一個大概的結果,因為 分佈概率表的精度有限,只給了 13 個不同的概率值進行查表。例如,要在自由度為 18 的 分佈查找 =30 對應的概率,則先在第一列找到自由度 18,然後看這一行可以發現與 30 接近的有28.9與31.5,它們所在的列是0.05與0.025,所以要查的概率值應於介於0.05與0.025之間,當然這是單側概率值,它們的雙側概率值界於0.1與0.05之間。如果要更精確一些可以採用插值的方法得到,這在正態分佈的查表中有介紹。
為什麼從正態總體中抽取出的樣本地方差服從 分佈
在抽樣分佈理論一節里講到,從正態總體進行一次抽樣就相當於獨立統一分佈的 n 個正態隨機變數ξ1,ξ2,…,ξn的一次取值,將 n隨機變數針對總體均值與方差進行標準化的(i=1,…,n),顯然每個都是服從標準正態分佈的,因此按照 分佈的定義,應該服從參數為 的 分佈。
如果將總體中的方差σ 用樣本方差 s代替,它是否也服從 分佈呢?理論上可以證明,它是服從 分佈的,但是參數 不是 n 而是 n-1 了,究其原因在於它是 n-1獨立立布標準正態分佈的隨機變數的平方和
我們常常把一個式子中獨立變數的個數稱為這個式子的“自由度”,確定一個式子自由度的方法是:若式子包含有 n 個變數,其中k 個被限制的樣本統計量,則這個表達式的自由度為 n-k。比如中包含ξ1,ξ2,…,ξn這 n 個變數,其中ξ1-ξn-1相互獨立,ξn為其餘變數的平均值,因此自由度為 n-1。