貝葉斯統計

總體分佈參數θ的概率分佈

貝葉斯統計是總體分佈參數θ的一個概率分佈

技術原理


先驗分佈

布參θ概率布。貝葉派根觀,θ統計推斷題,除提供息,必須θ規驗布,推斷缺素。貝葉派驗布釋抽θ驗息概率述,驗布必客觀依據,完基觀念。
例,某甲懷疑患疾病,診醫測諸溫、血壓指標,構。引參θ:病,;無病時,。X的分佈取決於θ是0還是1,因而知道了X有助於推斷θ是否為1。按傳統(頻率)學派的觀點,醫生診斷時,只使用X提供的信息;而按貝葉斯學派觀點,則認為只有在規定了一個介於0與1之間的數p作為事件的先驗概率時,才能對甲是否有病(即θ是否為1)進行推斷。p這個數刻畫了本問題的先驗分佈,且可解釋為疾病A的發病率。先驗分佈的規定對推斷結果有影響,如在此例中,若疾病A的發病率很小,醫生將傾向於只有在樣本X顯示出很強的證據時,才診斷甲有病。在這裡先驗分佈的使用看來是合理的,但貝葉斯學派並不是基於“p是發病率”這樣一個解釋而使用它的,事實上即使對本病的發病率毫無所知,也必須規定這樣一個p,否則問題就無法求解。

后驗分佈

根據布及θ的先驗分佈,用概率論中求條件概率分佈的方法,可算出在已知的條件下,θ的條件分佈。因為這個分佈是在抽樣以後才得到的,故稱為後驗分佈。貝葉斯學派認為:這個分佈綜合了樣本X及先驗分佈所提供的有關的信息。抽樣的全部目的,就在於完成由先驗分佈到后驗分佈的轉換。如上例,設,而,則貝葉斯學派解釋為:在某甲的指標量出之前,他患病的可能性定為0.001,而在得到X后,認識發生了變化:其患病的可能性提高為0.86,這一點的實現既與X有關,也離不開先驗分佈。計算后驗分佈的公式本質上就是概率論中著名的貝葉斯公式(見概率),這公式正是上面提到的貝葉斯1763年的文章的一個重要內容。
貝葉斯推斷方法的關鍵在於所作出的任何推斷都必須也只須根據后驗分佈,而不能再涉及X的樣本分佈。
例如,在奈曼-皮爾遜理論(見假設檢驗)中,為了確定水平α的檢驗的臨界值C,必須考慮X的分佈Pθ,這在貝葉斯推斷中是不允許的。但貝葉斯推斷在如何使用上,有一定的靈活性,例如為作θ的點估計,可用后驗分佈密度關於θ的最大值點,也可以用的均值或中位數(見概率分佈)等。為作θ的區間估計,可以取區間,使等於事先指定的數,並在這個條件下使區間長度最小。若要檢驗關於θ的假設,則可以算出ω的后驗概率 ,然後在時拒絕H。如果是統計決策性質(見統計決策理論)問題,則有一定的損失函數,知道了 ,可算出各行動α的后驗風險,即在後驗分佈下的數學期望值,然後挑選行動α使這期望值達到最小,這在貝葉斯統計中稱為“后驗風險最小”的原則,是貝葉斯決策理論中的根本原則和方法。

理論爭議


貝葉斯學派與頻率學派爭論的焦點在於先驗分佈的問題。所謂頻率學派是指堅持概率的頻率解釋的統計學家形成的學派。貝葉斯學派認為先驗分佈可以是主觀的,它沒有也不需要有頻率解釋。而頻率學派則認為,只有在先驗分佈有一種不依賴主觀的意義,且能根據適當的理論或以往的經驗決定時,才允許在統計推斷中使用先驗分佈,否則就會喪失客觀性。另一個批評是:貝葉斯方法對任何統計問題都給以一種程式化的解法,這導致人們對問題不去作深入分析,而只是機械地套用公式。貝葉斯學派則認為:從理論上說,可以在一定條件下證明,任何合理的優良性準則必然是相應於一定先驗分佈的貝葉斯準則,因此每個統計學家自覺或不自覺地都是“貝葉斯主義者”。他們認為,頻率學派表面上不使用先驗分佈,但所得到的解也還是某種先驗分佈下的貝葉斯解,而這一潛在的先驗分佈,可能比經過慎重選定的主觀先驗分佈更不合理。其次,貝葉斯學派還認為,貝葉斯方法對統計推斷和決策問題給出程式化的解是優點而非缺點,因為它免除了尋求抽樣分佈,(見統計量)這個困難的數學問題。而且這種程式化的解法並不是機械地套公式,它要求人們對先驗分佈、損失函數等的選擇作大量的工作。還有,貝葉斯學派認為,用貝葉斯方法求出的解不需要頻率解釋,因而即使在一次使用下也有意義。反之,根據概率的頻率解釋而提供的解,則只有在大量次數使用之下才有意義,而這常常不符合應用的實際。這兩個學派的爭論是戰後數理統計學發展中的一個特色。這個爭論還遠沒有解決,它對今後數理統計學的發展還將產生影響。

發展歷史


貝葉斯統計的歷史可以上溯到16世紀。1713年,James Bernoulli意識到在可用於機會遊戲的演繹邏輯和每日生活中的歸納邏輯之間的區別,他提出一個著名的問題:前者的機理如何能幫助處理後面的推斷。托馬斯.貝葉斯(ThomasBayes,1702-1761)是長老會的牧師。他對這個問題產生濃厚的興趣,並且對這個問題進行認真的研究,期間,他寫了一篇文章來回答Bernoulli的問題,提出了後來以他的名字命名的公式:貝葉斯公式。但是,直到貝葉斯死後才由他的朋友RichardPrice在1763年發表了這篇文章,對Bernoulli的問題提供了回答。這篇文章標誌著貝葉斯統計的產生。但貝葉斯統計的思想在開始時並沒有得到重視。後來,Laplace本人重新發現了貝葉斯公式,而且闡述得比貝葉斯更為清晰。由於貝葉斯統計對於概率的觀點過於主觀,與當時的主流統計觀點相左,此外也很難應用當時嚴謹的數學理論解釋。
例如貝葉斯統計中的先驗概率的觀點,一直以來都是貝葉斯統計學派和非貝葉斯統計學派爭論的焦點之一。在歷史上,貝葉斯統計長期受到排斥,受到當時主流的數學家們的拒絕。例如,近代優秀的統計學家R. A. Fisher就是貝葉斯統計的反對者。然而,隨著科學的進步,貝葉斯統計在實際應用上取得的成功慢慢改變了人們的觀點。貝葉斯統計慢慢的受到人們的重視,貝葉斯統計已經成為統計學中一門很熱門的研究課題。
從貝葉斯為了回答James Bernoulli的問題而寫的那一篇論文,提出著名的貝葉斯統計思想以來,經過幾百年的發展,關於貝葉斯統計的論文和學術專著有很多。統計界公認比較權威的貝葉斯統計的著作是James O. Berger的作品:StatisticalDecisiontheory and Bayesian Analysis。國內有其中譯本:《統計決策論及貝葉斯分析》,它是由賈乃光主譯,吳喜之校譯,中國統計出版社出版。