中心極限定理

概率論中最重要的一類定理

中心極限定理(central limit theorem)是概率論中討論隨機變數序列部分和分佈漸近於正態分佈的一類定理。這組定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變數累積分佈函數逐點收斂到正態分佈的積累分佈函數的條件。它是概率論中最重要的一類定理,有廣泛的實際應用背景。在自然界與生產中,一些現象受到許多相互獨立的隨機因素的影響,如果每個因素所產生的影響都很微小時,總的影響可以看作是服從正態分佈的。中心極限定理就是從數學上證明了這一現象。最早的中心極限定理是討論重點,伯努利試驗中,事件A出現的次數漸近於正態分佈的問題。

簡介及歷史


最早的中心極限定理是討論n重伯努利試驗中,事件A出現的次數漸近於正態分佈的問題。1716年前後,A.棣莫弗對n重伯努利試驗中每次試驗事件A出現的概率為的情況進行了討論,隨後,P.-S.拉普拉斯和A.M.李亞普諾夫等進行了推廣和改進。自P.萊維在1919~1925年系統地建立了特徵函數理論起,中心極限定理的研究得到了很快的發展,先後產生了普遍極限定理和局部極限定理等。極限定理是概率論的重要內容,也是數理統計學的基石之一,其理論成果也比較完美。長期以來,對於極限定理的研究所形成的概率論分析方法,影響著概率論的發展。同時新的極限理論問題也在實際中不斷產生。
中心極限定理有著有趣的歷史。這個定理的第一版被法國數學家棣莫弗發現,他在1733年發表的卓越論文中使用正態分佈去估計大量拋擲硬幣出現正面次數的分佈。這個超越時代的成果險些被歷史遺忘,所幸著名法國數學家拉普拉斯在1812年發表的巨著Théorie Analytique des Probabilités中拯救了這個默默無名的理論。拉普拉斯擴展了棣莫弗的理論,指出二項分佈可用正態分佈逼近。但同棣莫弗一樣,拉普拉斯的發現在當時並未引起很大反響。直到十九世紀末中心極限定理的重要性才被世人所知。1901年,俄國數學家裡雅普諾夫用更普通的隨機變數定義中心極限定理並在數學上進行了精確的證明。如今,中心極限定理被認為是(非正式地)概率論中的首席定理。

定義


獨立同分佈的中心極限定理
設隨機變數,,......,......獨立同分佈,並且具有有限的數學期望方差:,,則對任意x,分佈函數
滿足
該定理說明,當n很大時,隨機變數 近似地服從標準正態分佈N(0,1)。因此,當n很大時,近似地服從正態分佈.該定理是中心極限定理最簡單又最常用的一種形式,在實際工作中,只要n足夠大,便可以把獨立同分佈的隨機變數之和當作正態變數。這種方法在數理統計中用得很普遍,當處理大樣本時,它是重要工具。
棣莫佛-拉普拉斯定理
設隨機變數X(n=1,2,...,)服從參數為n,的二項分佈,則對於任意有限區間(a,b)有
該定理表明,正態分佈是二項分佈的極限分佈,當數充分大時,我們可以利用上式來計算二項分佈的概率。
不同分佈的中心極限定理
設隨機變數 ,,.....,......獨立同分佈,它們的概率密度分別為 ,並有, ,(k=1,2,...),令:
若對任意正數τ,有
對任意x,隨機變數Yn的分佈函數Fn(x),滿足該定理說明:所研究的隨機變數如果是有大量獨立的而且均勻的隨機變數相加而成,那麼它的分佈將近似於正態分佈。

應用


中心極限定理在A/B測試中的應用
中心極限定理是概率論中最重要的一類定理,它支撐著和置信區間相關的T檢驗和假設檢驗的計算公式和相關理論。如果沒有這個定理,之後的推導公式都是不成立的。
事實上,以上對於中心極限定理的兩種解讀,在不同的場景下都可以對測試的指標置信區間判定起到一定作用。
對於屬於正態分佈的指標數據,我們可以很快捷地對它進行下一步假設檢驗,並推算出對應的置信區間;而對於那些不屬於正態分佈的數據,根據中心極限定理,在樣本容量很大時,總體參數的抽樣分佈是趨向於正態分佈的,最終都可以依據正態分佈的檢驗公式對它進行下一步分析。
其他舉例
1.某炮兵陣地對敵人的防禦地段進行100次射擊,每次射擊中炮彈的命中數是一個隨機變數,其期望為2,方差為1.69,求在100次射擊中有180顆到220顆炮彈命中目標的概率。
解:設Xk表示第k次射擊中的炮彈數,則,,且,應用中心極限定理,近似服從N(0,1),由題意,所以:
所以在100次射擊中有180顆到220顆炮彈命中目標的概率為87.64%.
2.一個複雜系統由100個相互獨立的元件組成,在系統運行時每個元件損壞的概率為0.1,為使系統正常工作,至少必須有85個元件工作,求系統的可靠度(正常工作的概率)。
解:以X表示100個元件中正常工作的元件數,則X~B(100,0.9),由二項分佈的正態近似,
即正常工作的概率為95.25%.