二項分佈

重複n次獨立的伯努利試驗

徠二項分佈就是重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分佈服從0-1分佈。

定義


統計學定義

在概率論和統計學中,二項分佈是n個獨立的是/非試驗中成功的次數的離散概率分佈,其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。實際上,當 時,二項分佈就是伯努利分佈,二項分佈是顯著性差異的二項試驗的基礎。

醫學定義

在醫學領域中,有一些隨機事件是只具有兩種互斥結果的離散型隨機事件,稱為二項分類變數(dichotomous variable),如對病人治療結果的有效與無效,某種化驗結果的陽性與陰性,接觸某傳染源的感染與未感染等。二項分佈(binomial distribution)就是對這類只具有兩種互斥結果的離散型隨機事件的規律性進行描述的一種概率分佈。
考慮只有兩種可能結果的隨機試驗,當成功的概率()是恆定的,且各次試驗相互獨立,這種試驗在統計學上稱為伯努利試驗(Bernoulli trial)。如果進行n 次伯努利試驗,取得成功次數為 的概率可用下面的二項分佈概率公式來描述:
式中的n為獨立的伯努利試驗次數,π為成功的概率,(1-π)為失敗的概率,X為在n次伯努里試驗中出現成功的次數,表示在n次試驗中出現X的各種組合情況,在此稱為二項係數(binomial coefficient)。
所以的含義為:含量為n的樣本中,恰好有X例陽性數的概率。

概念


二項分佈(Binomial Distribution),即重複n次的伯努利試驗(Bernoulli Experiment),用ξ表示隨機試驗的結果。如果事件發生的概率是P,則不發生的概率q=1-p,N次獨立重複試驗中發生K次的概率是
,其中,注意:第二個等號後面的括弧里的是上標,表示的是方冪。
那麼就說這個屬於二項分佈。其中P稱為成功概率。記作ξ~B(n,p)
期望:Eξ=np;
方差:Dξ=npq;
其中q=1-p
證明:由二項式分佈的定義知,隨機變數X是n重伯努利實驗中事件A發生的次數,且在每次試驗中A發生的概率為p。因此,可以將二項式分佈分解成n個相互獨立且以p為參數的(0-1)分佈隨機變數之和.
設隨機變數X(k)(k=1,2,3...n)服從(0-1)分佈,則X=X(1)+X(2)+X(3)....X(n).
因X(k)相互獨立,所以期望:
方差:
證畢。
如果
1.在每次試驗中只有兩種可能的結果,而且是互相對立的;
2.每次實驗是獨立的,與其它各次試驗結果無關;
3.結果事件發生的概率在整個系列試驗中保持不變,則這一系列試驗稱為伯努利實驗。
在這試驗中,事件發生的次數為一隨機事件,它服從二次分佈。二項分佈可以用於可靠性試驗。可靠性試驗常常是投入n個相同的式樣進行試驗T小時,而只允許k個式樣失敗,應用二項分佈可以得到通過試驗的概率。
若某事件概率為p,現重複試驗n次,該事件發生k次的概率為:P=C(n,k)×p^k×(1-p)^(n-k)。C(n,k)表示組合數,即從n個事物中拿出k個的方法數。

性質


(一)二項分佈是離散型分佈,概率直方圖是躍階式的。因為x為不連續變數,用概率條圖表示更合適,用直方圖表示只是為了更形象些。
1.當p=q時圖形是對稱的
例如, ,p=q=1/2,各項的概率可寫作:
2.當p≠q時,直方圖呈偏態,pq的偏斜方向相反。如果n很大,即使p≠q,偏態逐漸降低,最終成正態分佈,二項分佈的極限分佈為正態分佈。故當n很大時,二項分佈的概率可用正態分佈的概率作為近似值。何謂n很大呢?一般規定:當pq且nq≥5,這時的n就被認為很大,可以用正態分佈的概率作為近似值了。
(二)二項分佈的平均數與標準差
如果二項分佈滿足pq,np≥5)時,二項分佈接近正態分佈。這時,也僅僅在這時,二項分佈的x變數(即成功的次數)具有如下性質:
即x變數具有μ =np,的正態分佈。
式中n為獨立試驗的次數,p為成功事件的概率,q=1- p。由於n很大時二項分佈逼近正態分佈,其平均數,標準差是根據理論推導而來的,故用μ和σ而不用X和S表示。它們的含意是指在二項試驗中,成功的次數的平均數μ =np ,成功次數的分散程。例如一個擲10枚硬幣的試驗,出現正面向上的平均次數為5次(μ= np=),正面向上的散布程度為√10×(1/2)×(1/2)= 1.58(次),這是根據理論的計算,而在實際試驗中,有的人可得10個正面向上,有人得9個、8個……,人數越多,正面向上的平均數越接近5,分散程度越接近1.58。

圖形特點


(1)當(n+1)p不為整數時,二項概率P{X=k}在k=[(n+1)p]時達到最大值;
(2)當(n+1)p為整數時,二項概率P{X=k}在k=(n+1)p和k=(n+1)p-1時達到最大值。
註:[x]為不超過x的最大整數。

應用條件


1.各觀察單位只能具有相互對立的一種結果,如陽性或陰性,生存或死亡等,屬於兩分類資料。
2.已知發生某一結果(陽性)的概率為π,其對立結果的概率為1-π,實際工作中要求π是從大量觀察中獲得比較穩定的數值。
3.n次試驗在相同條件下進行,且各個觀察單位的觀察結果相互獨立,即每個觀察單位的觀察結果不會影響到其他觀察單位的結果。如要求疾病無傳染性、無家族性等。

應用實例


二項分佈在心理與教育研究中,主要用於解決含有機遇性質的問題。所謂機遇問題,即指在實驗或調查中,實驗結果可能是由猜測而造成的。比如,選擇題目的回答,划對划錯,可能完全由猜測造成。凡此類問題,欲區分由猜測而造成的結果與真實的結果之間的界限,就要應用二項分佈來解決。下面給出一個例子。
已知有正誤題10題,問答題者答對幾題才能認為他是真會,或者說答對幾題,才能認為不是出於猜測因素?
分析:此題p=q=1/2,即猜對猜錯的概率各為0.5。np≥5,故此二項分佈接近正態分佈:
根據正態分佈概率,當Z=1.645時,該點以下包含了全體的95%。如果用原分數表示,則為
它的意義是,完全憑猜測,10題中猜對8題以下的可能性為95%,猜對8、9、10題的概率只5%。因此可以推論說,答對8題以上者不是憑猜測,而是會答。但應該明確:作此結論,也仍然有犯錯誤的可能,即那些完全靠猜測的人也有5%的可能性答對8、9、10道題。
此題的概率值,還可用二項分佈函數直接計算,亦得與正態分佈近似的結果:
根據概率加法,答對8題及其以上的總概率為: 同理,可計算8題以下的概率為 95%。(近似)

分佈關係


兩個二項分佈的和
如果X~ B(n,p)和Y~ B(m,p),且X和Y相互獨立,那麼X+Y也服從二項分佈;它的分佈為:
伯努利分佈
伯努利分佈是二項分佈在n= 1時的特殊情況。X~ B(1,p)與X~ Bern(p)的意思是相同的。相反,任何二項分佈B(n,p)都是n次獨立伯努利試驗的和,每次試驗成功的概率為p。
泊松近似
當試驗的次數趨於無窮大,而乘積np固定時,二項分佈收斂於泊松分佈。因此參數為λ=np的泊松分佈可以作為二項分佈B(n,p)的近似,近似成立的前提要求n足夠大,而p足夠小,np不是很小。
正態近似
n=6、p=0.5時的二項分佈及正態近似
如果n足夠大,那麼分佈的偏度就比較小。在這種情況下,如果使用適當的連續性校正,那麼B(n,p)的一個很好的近似是正態分佈:
當n越大(至少20)且p不接近0或1時近似效果更好。不同的經驗法則可以用來決定n是否足夠大,以及p是否距離0或1足夠遠,其中一個常用的規則是np和n(1 −p)都必須大於 5。

應用範圍


在生產實踐過程中會有來自很多方面因素的影響,所有這些因素的綜合作用導致過程動蕩,從而體現出一些質量特性的不穩定性. 概率論與數理統計一些統計技術可以幫助我們了解和監控這些波動,幫助我們朝著有利於我們的方向發展。在生產實踐中有一類現象,我們研究的對象只產生兩種可能結果,他們的分佈規律就是二項分佈,二項分佈應用很廣泛。
經濟學
在保險業務中,我們經常需要根據實際情況適當調整保費問題,以保證保險公司的利潤達到一定要求,同時保險公司的業務量也達到要求,對於這一類問題,可以對已知實際情況做一定的概率分析。例如某保險公司有10000客戶購買人身意外保險,該公司規定每人每年付公司120元,若遇意外死亡,公司將賠償10000元。若每人每年死亡率為0.006,從而不難利用二項分佈算出公司獲利、虧本的各種情形了。實際上對於隨機現象,了解其分佈非常有意義,利用概率論討論得到的結果對保險公司有一定的指導意義。
管理學
管理學在生產實踐過程中我們經常需要配備一些設備,但是設備經常需要維修。為了保證設備正常工作,需配備適量的維修工人(工人配備多了就浪費,配備少了又影響生產)例如現有同類型設備300台,各台工作是相互獨立的,發生故障的概率都是0.01。假設通常情況下一台設備的故障由一個人處理,可由二項分佈算出至少需配備多少工人,才能保證設備發生故障但不能及時維修的概率小於0.01。
醫學
在醫學領域中,二項分佈(binomialdistribution)可以對這類只具有兩種互斥結果的離散型隨機事件的規律性進行描述。

期望與方差


如果(也就是說,X是服從二項分佈的隨機變數),那麼X的期望值為:
X的方差為:
這個事實很容易證明。首先假設有一個伯努利試驗。試驗有兩個可能的結果:1和0,前者發生的概率為p,後者的概率為1−p。該試驗的期望值等於μ= 1 · p+ 0 · (1−p) =p。該試驗的方差也可以類似地計算:σ= (1−p)·p+ (0−p)·(1−p) =p(1 − p)。
一般的二項分佈是n次獨立的伯努利試驗的和。它的期望值和方差分別等於每次單獨試驗的期望值和方差的和: