假設檢驗

假設檢驗

假設檢驗是推論統計中用於檢驗統計假設的一種方法。而“統計假設”是可通過觀察一組隨機變數的模型進行檢驗的科學假說。一旦能估計未知參數,就會希望根據結果對未知的真正參數值做出適當的推論。

統計上對參數的假設,就是對一個或多個參數的論述。而其中欲檢驗其正確性的為零假設(null hypothesis),零假設通常由研究者決定,反映研究者對未知參數的看法。相對於零假設的其他有關參數之論述是備擇假設(alternative hypothesis),它通常反映了執行檢定的研究者對參數可能數值的另一種(對立的)看法(換句話說,備擇假設通常才是研究者最想知道的)。

假設檢驗的種類包括:t檢驗,Z檢驗,卡方檢驗,F檢驗等等。

基本思想


假設檢驗的基本思想是小概率反證法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次試驗中基本上不會發生。反證法思想是先提出假設(檢驗假設H0),再用適當的統計方法確定假設成立的可能性大小,如可能性小,則認為假設不成立,若可能性大,則還不能認為假設不成立。
假設是否正確,要用從總體中抽出的樣本進行檢驗,與此有關的理論和方法,構成假設檢驗的內容。設A是關於總體分佈的一項命題,所有使命題A成立的總體分佈構成一個集合h0,稱為原假設(常簡稱假設)。使命題A不成立的所有總體分佈構成另一個集合h1,稱為備擇假設。如果h0可以通過有限個實參數來描述,則稱為參數假設,否則稱為非參數假設(見非參數統計)。如果h0(或h1)只包含一個分佈,則稱原假設(或備擇假設)為簡單假設,否則為複合假設。對一個假設h0進行檢驗,就是要制定一個規則,使得有了樣本以後,根據這規則可以決定是接受它(承認命題A正確),還是拒絕它(否認命題A正確)。這樣,所有可能的樣本所組成的空間(稱樣本空間)被劃分為兩部分HA和HR(HA的補集),當樣本x∈HA時,接受假設h0;當x∈HR時,拒絕h0。集合HR常稱為檢驗的拒絕域,HA稱為接受域。因此選定一個檢驗法,也就是選定一個拒絕域,故常把檢驗法本身與拒絕域HR等同起來。

基本方法


顯著性檢驗 有時,根據一定的理論或經驗,認為某一假設h0成立,例如,通常有理由認為特定的一群人的身高服從正態分佈。當收集了一定數據后,可以評價實際數據與理論假設h0之間的偏離,如果偏離達到了“顯著”的程度就拒絕h0,這樣的檢驗方法稱為顯著性檢驗。偏離達到顯著的程度通常是指定一個很小的正數α(如0.05,0.01),使當h0正確時,它被拒絕的概率不超過α,稱α為顯著性水平。這種假設檢驗問題的特點是不考慮備擇假設,考慮實驗數據與理論之間擬合的程度如何,故此時又稱為擬合優度檢驗。擬合優度檢驗是一類重要的顯著性檢驗。
K.皮爾森在1900年提出的Ⅹ檢驗是一個重要的擬合優度檢驗。設原假設h0是:“總體分佈等於某個已知的分佈函數F(x)”。把(-∞,∞)分為若干個兩兩無公共點的區間I1,I2,…,Ik,對任一個區間,以vj記大小為n的樣本X1,X2,…,Xn中落在Ij內的個數,稱為區間Ij的觀測頻數,另外,求出Ij的理論頻數(對j=1,2,…,k都這樣做),再算出由下式定義的Ⅹ統計量,皮爾森證明了:若對j=1,2,…,k,則當n→∞時,Ⅹ的極限分佈是自由度為k-1的Ⅹ分佈。於是在樣本大小n相當大時,從Ⅹ分佈表可查得Ⅹ分佈的上α分位數(見概率分佈)Ⅹ(k-1)。由此即得檢驗水平為α的拒絕域:{Ⅹ≥Ⅹα(k-1)}。如果原假設h 0為:總體服從分佈族{Fθ,θ∈嘷},式中θ為未知參數,嘷為θ的所有可能取值的集合(稱參數空間),也可得到類似的拒絕域,只要在計算理論頻數vj時,將所包含的未知參數θ用適當的點估計代替,即可計算 Ⅹ統計量。但此時極限分佈的自由度為 k-Л-1,式中Л為θ中的獨立參數的個數。柯爾莫哥洛夫檢驗(見非參數統計)也是一個重要的擬合優度檢驗方法。
奈曼-皮爾森理論 J.奈曼與 E.S.皮爾森合作,從1928年開始,對假設檢驗提出了一項系統的理論。他們認為,在檢驗一個假設h0時可能犯兩類錯誤:
第一類錯誤是真實情況為h0成立(即θ∈嘷0),但判斷h0不成立,犯了“以真為假”的錯誤。第二類錯誤是h0實際不成立(即θ∈嘷1),但判斷它成立,犯了“以假為真”的錯誤(見表)。這裡嘷0,嘷1分別是使假設h0成立或不成立的θ的集合,顯然嘷=嘷0+嘷1。當θ∈嘷0,樣本X(即X1,X2,…,Xn組成的向量)∈HR,其概率Pθ(X∈HR)就是犯第一類錯誤的概率α;當θ∈嘷1,樣本X∈HA,其概率就是犯第二類錯誤的概率β。通常人們不希望輕易拒絕h0,例如工廠的產品一般是合格的,出廠進行抽樣檢查時不希望輕易地被認為不合格,於是在限定犯第一類錯誤的概率不超過某個指定值α(稱為檢驗水平)的條件下,尋求犯第二類錯誤的概率儘可能小的檢驗方法。為了描述檢驗的好壞,稱θ的函數Pθ(X∈HR)為檢驗的功效函數。例如上述產品檢驗的例子中,所採用的檢驗可以是:當樣品中的廢品個數超過一定限度時,認為該批產品不合格,否則就認為合格。這個檢驗的功效函數有圖示的形狀,圖中的 p0、p1、α、β根據需要選定。這種圖形清楚地描述了犯兩類錯誤的概率。
優良性準則 基於奈曼-皮爾森理論及統計決策理論,可以提出一些準則,來比較為檢驗同一假設而提出的各種檢驗。較重要的準則有:
一致最大功效(UMP)準則 欲檢驗h0:θ∈嘷0,h1:θ∈嘷1;當給定檢驗水平α后,在所有滿足的可供選擇的檢驗HR中,是否有一個最好的,亦即:是否存在拒絕域H,使得對於所有θ∈嘷1及一切檢驗水平為α的H皆有。若這樣的檢驗存在,則稱HR為檢驗水平α的一致最大功效檢驗,簡稱UMP檢驗。奈曼與皮爾森在1933年提出了著名的奈曼-皮爾森引理。這是對簡單假設尋求UMP檢驗的一個構造性的結果,即此時似然比檢驗就是UMP檢驗。對某些複合假設也找到了 UMP檢驗,但並不是所有情況都存在 UMP檢驗。因此有必要在對檢驗作某些限制下尋找最大功效檢驗或建立另外一些優良性準則。
無偏性準則 要求檢驗在備擇假設h1成立時作出正確判斷的概率不小於檢驗水平α,這就是說在h0不成立時拒絕h0的概率要不小於在h0成立時拒絕h0的概率,這種性質稱為無偏性,具有這種性質的檢驗稱為無偏檢驗。顯然,如果在無偏檢驗中存在一致最大功效檢驗就稱為一致最大功效無偏檢驗(簡稱UMPU檢驗)。UMP檢驗不存在時,仍可能有UMPU檢驗存在。例如正態總體中方差未知時,為檢驗均值μ=μ0的t檢驗就是UMPU檢驗,但不是UMP檢驗。
因為假設檢驗在統計決策理論中是一種特殊的統計決策問題,兩類錯誤影響可用特殊損失來表示。例如選取特殊的損失函數,使正確判斷時損失為零,錯判時損失為1。它就可歸結為犯第一類錯誤的概率α和犯第二類錯誤的概率β。這同用功效函數Pθ(X∈HR)來敘述是一致的。因此把統計決策理論中容許性、同變性、貝葉斯決策、最小化最大等概念引進來,而得到容許檢驗、同變檢驗、貝葉斯檢驗和最小化最大檢驗。在同變檢驗限制下,又可以建立一致最大功效同變檢驗的概念。這些準則又可作為假設檢驗的優良性準則,從而擴大了假設檢驗的內容。
尋求在一定準則下的最優檢驗是很困難的,何況這種最優檢驗有時並不存在。於是提出了若干依據直觀的推理法,其中最重要的是似然比法。
似然比檢驗運用與最大似然估計(見點估計)類似的原理,可得到似然比檢驗法。設樣本X的分佈密度即似然函數為l(尣,θ),θ∈嘷,欲檢驗的假設為h0:θ∈嘷0,稱為似然比。顯然0≤(尣)≤1,當(尣)太小時就拒絕h0,否則接受h0,其臨界值λ0由檢驗水平α 和(尣)在h0成立時的分佈確定,即。然而,在一般情況下,尋求(尣的精確分佈並不容易。1938年S.S.威爾克斯證明了:在相當廣泛的條件下,-2ln(尣)是漸近Ⅹ分佈的,這就為大樣本的似然比檢驗提供了實行的可能。
用似然比法導出的重要檢驗有:
U檢驗 若總體遵從正態分佈N(μ,σ),其中σ已知,X=(X1,X2,…,Xn)是從總體中抽取的簡單隨機樣本,記,則遵從標準正態分佈N(0,1),於是可考慮對μ的以下幾種假設的檢驗,其中μ0是給定的常數,α為檢驗的水平,uα為標準正態分佈的上α分位數。上述檢驗稱為U 檢驗。
t檢驗 若總體服從正態分佈N(μ,σ),但σ未知,記,,則t=遵從自由度為n-1的t分佈,可對μ有以下的水平為α的檢驗,其中tα為自由度為n-1的t分佈的上α分位數。這些檢驗稱為t檢驗。
F檢驗 若X=(X1,X2,…,)及Y=(Y1,Y2,…,)分別為來自正態總體N(μ1,σ娝)及N(μ2,σ娤)的簡單隨機樣本,記,,,,則遵從自由度為n1-1,n2-1的F分佈,對比較σ娝與σ娤的假設有以下的水平為α的檢驗,其中Fα為自由度為(n1-1,n2-1)的F分佈的上α分位數。
F檢驗
F檢驗
這些檢驗稱為F檢驗,在方差分析中有廣泛的應用。
參考書目 E.L.Lehmann,Testing Statistical Hypothesis,John Wiley & Sons, New

基本步驟


1、提出檢驗假設又稱無效假設,符號是H0;備擇假設的符號是H1。
H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;
H1:樣本與總體或樣本與樣本間存在本質差異;
預先設定的檢驗水準為0.05;當檢驗假設為真,但被錯誤地拒絕的概率,記作α,通常取α=0.05或α=0.01。
2、選定統計方法,由樣本觀察值按相應的公式計算出統計量的大小,如X2值、t值等。根據資料的類型和特點,可分別選用Z檢驗,T檢驗,秩和檢驗和卡方檢驗等。
3、根據統計量的大小及其分佈確定檢驗假設成立的可能性P的大小並判斷結果。若P>α,結論為按α所取水準不顯著,不拒絕H0,即認為差別很可能是由於抽樣誤差造成的,在統計上不成立;如果P≤α,結論為按所取α水準顯著,拒絕H0,接受H1,則認為此差別不大可能僅由抽樣誤差所致,很可能是實驗因素不同造成的,故在統計上成立。P值的大小一般可通過查閱相應的界值表得到。
教學中的做法:
1.根據實際情況提出原假設和備擇假設;
2.根據假設的特徵,選擇合適的檢驗統計量;
3.根據樣本觀察值,計算檢驗統計量的觀察值(obs);
4.選擇許容顯著性水平,並根據相應的統計量的統計分佈表查出相應的臨界值(ctrit);
5.根據檢驗統計量觀察值的位置決定原假設取捨。

意義


假設檢驗是抽樣推斷中的一項重要內容。它是根據原資料作出一個總體指標是否等於某一個數值,某一隨機變數是否服從某種概率分佈的假設,然後利用樣本資料採用一定的統計方法計算出有關檢驗的統計量,依據一定的概率原則,以較小的風險來判斷估計數值與總體數值(或者估計分佈與實際分佈)是否存在顯著差異,是否應當接受原假設選擇的一種檢驗方法。
用樣本指標估計總體指標,其結論有的完全可靠,有的只有不同程度的可靠性,需要進一步加以檢驗和證實。通過檢驗,對樣本指標與假設的總體指標之間是否存在差別作出判斷,是否接受原假設。這裡必須明確,進行檢驗的目的不是懷疑樣本指標本身是否計算正確,而是為了分析樣本指標和總體指標之間是否存在顯著差異。從這個意義上,假設檢驗又稱為顯著性檢驗。
進行假設檢驗,先要對假設進行陳述。通過下例加以說明。
例如,設某工廠製造某種產品的某種精度服從平均數為方差的正態分佈,據過去的數據,已知平均數為75,方差為100。若經過技術革新,改進了製造方法,出現了平均數大於75,方差沒有變更,但仍存在平均數不超過75的可能性。試陳述為統計假設。
根據上述情況,可有兩種假設,(1) 平均數不超過75,(2)平均數大於75,即如果我們把(1)作為原假設,即被檢驗的假設,稱作零假設,記作H0,如果其他假設相對於零假設來說,是約定的、補充的假設,則就是備擇的,故稱為備擇假設或對立假設,記作H1。
還須指出,哪個是零假設,哪個是備擇假設,是無關緊要的。我們關心的問題,是要探索哪一個假設被接受的問題。被接受的假設是要作為推理的基礎。在實際問題中,一般要考慮事情發生的邏輯順序和關心的事件,來設立零假設和備擇假設。
在作出了統計假設之後,就要採用適當的方法來決定是否應該接受零假設。由於運用統計方法所遇到的問題不同,因而解決問題的方法也不盡相同。但其解決方法的基本思想卻是一致的,即都是“概率反證法”思想,即:
(1)為了檢驗一個零假設(即虛擬假設)是否成立,先假定它是成立的,然後看接受這個假設之後,是否會導致不合理結果。如果結果是合理的,就接受它;如不合理,則否定原假設。
(2)所謂導致不合理結果,就是看是否在一次觀察中,出現小概率事件。通常把出現小概率事件的概率記為0,即顯著性水平。它在次數函數圖形中是曲線兩端或一端的面積。因此,從統計檢驗來說,就涉及到雙側檢驗和單側檢驗問題。在實踐中採用何類檢驗是由實際問題的性質來決定的。一般可以這樣考慮:
①雙側檢驗。如果檢驗的目的是檢驗抽樣的樣本統計量與假設參數的差數是否過大(無論是正方向還是負方向),就把風險平分在右側和左側。比如顯著性水平為0.05,即概率曲線左右兩側各占,即0.025。
②單側檢驗。這種檢驗只注意估計值是否偏高或偏低。如只注意偏低,則臨界值在左側,稱左側檢驗;如只注意偏高,則臨界值在右側,稱右側檢驗。
對總體的參數的檢量,是通過由樣本計算的統計量來實現的。所以檢驗統計量起著決策者的作用。
參數估計與假設檢驗
統計推斷是由樣本的信息來推測母體性能的一種方法,它又可以分為兩類問題,即參數估計和假設檢驗。實際生產和科學實驗中,大量的問題是在獲得一批數據后,要對母體的某一參數進行估計和檢驗。
例如,我們對45鋼的斷裂韌性作了測定,取得了一批數據,然後要求45鋼斷裂韌性的平均值,或要求45鋼斷裂韌性的單側下限值,或要求45鋼斷裂韌性的分散度(即離散係數),這就是參數估計的問題。
又如,經過長期的積累,知道了某材料的斷裂韌性的平均值和標準差,經改進熱處理后,又測得一批數據,試問新工藝與老工藝相比是否有顯著差異,這就是假設檢驗的問題。
這樣可以看出,參數估計是假設檢驗的第一步,沒有參數估計,也就無法完成假設檢驗。

應用


在雷達檢測中,目標是產生假設的源,它可使用兩個假設:H1和H0,分別表示目標存在(H1)和不存在(H0)。這是二元簡單假設檢驗。二元數字通信問題也是簡單假設檢驗。如果假設中含有目標未知參量,則是複合假設檢驗。m元通信問題也是複合假設檢驗。如果未知參量是隨機變化的,則是隨機參量信號的假設檢驗。
通信系統和雷達系統常用的最佳準則,是最小錯誤概率準則,即最大后驗概率準則。以雷達檢測為例:目標是源,它可使用的兩個假設是H1和H0。接收端收到樣本X(雷達回波)后,判定H1為真(目標存在),或判定H0為真(目標不存在概率可分別表示為p(H1/x)和p(H0/x),稱為後驗概率。最大后驗概率準則的判決規則是,若
則判定H1為真(選擇H1);否則判定H0為真。

注意的問題


1、做假設檢驗之前,應注意資料本身是否有可比性。
2、當差別有統計學意義時應注意這樣的差別在實際應用中有無意義。
3、根據資料類型和特點選用正確的假設檢驗方法。
4、根據專業及經驗確定是選用單側檢驗還是雙側檢驗。
5、當檢驗結果為拒絕無效假設時,應注意有發生I類錯誤的可能性,即錯誤地拒絕了本身成立的H0,發生這種錯誤的可能性預先是知道的,即檢驗水準那麼大;當檢驗結果為不拒絕無效假設時,應注意有發生II類錯誤的可能性,即仍有可能錯誤地接受了本身就不成立的H0,發生這種錯誤的可能性預先是不知道的,但與樣本含量和I類錯誤的大小有關係。
6、判斷結論時不能絕對化,應注意無論接受或拒絕檢驗假設,都有判斷錯誤的可能性。
7、報告結論時是應注意說明所用的統計量,檢驗的單雙側及P值的確切範圍。