貝葉斯推理

貝葉斯推理

貝葉斯推理是由英國牧師貝葉斯發現的一種歸納推理方法,後來的許多研究者對貝葉斯方法在觀點、方法和理論上不斷的進行完善,最終形成了一種有影響的統計學派,打破了經典統計學一統天下的局面。貝葉斯推理是在經典的統計歸納推理——估計和假設檢驗的基礎上發展起來的一種新的推理方法。與經典的統計歸納推理方法相比,貝葉斯推理在得出結論時不僅要根據當前所觀察到的樣本信息,而且還要根據推理者過去有關的經驗和知識。

名詞詳解


作為一種推理方法,貝葉斯推理是從概率論中的貝葉斯定理擴充而來。貝葉斯定理斷定:已知一個事件集Bi(i=1,2,...k)中每一Bi的概率P(Bi),又知在Bi已發生的條件下事件A的條件概率P(A/Bi),就可得出在給定A已發生的條件下任何Bi的條件概率(逆概率)P(Bi/A)。即P(Bi/A)=P(Bi)P(A/Bi)/(P(B1)P(A/B1)+P(B2)P(A/B2)+...+P(Bn)P(A/Bn))
貝葉斯定理有很廣的應用範圍,但作為研究貝葉斯推理的起點,我們必須擴充這個定理的意義。不考慮事件集Bi,而考慮構成實際情況的一個合適模型的假說集Hi(i=l,2,...k),其中一個而且僅僅一個假說必定是真的。事件A則被重新解釋為由實際情況得到的觀察結果E:樣本數據。在觀察之前,對所有的i=l,2,...k,已知P(Hi),它們是不同假說的先驗概率,構成次要的信息來源。又知P(E/Hi)即在Hi真時E被觀察到的概率,它們是樣本數據的似然值,也叫E相對於Hi的后驗概率。經過這樣的解釋,貝葉斯定理僅由適用給事件測定概率變成也能給假說測定概率(可信度)的工具。

研究概況


基礎概率忽略現象的發現與爭論
Kahneman和Tversky開闢了概率推理這一重要的研究領域。他們在20世紀70年代初期的研究首先發現,人們的直覺概率推理並不遵循貝葉斯原理,表現在判斷中往往忽略問題中的基礎概率信息,而主要根據擊中率信息作出判斷。他們一個經典性的研究[3]是:告知被試100人中有70人是律師,30人是工程師,從中隨機選出一人,當把該人的個性特徵描述得象工程師時,被試判斷該人為工程師的概率接近0.90。顯然被試忽略了工程師的基礎概率只有30%。後來他們還採用多種問題驗證基礎概率忽略現象[4],如讓被試解決如下計程車問題:一個城市85%的計程車屬於綠車公司,15%屬於藍車公司,現有一計程車捲入肇事逃逸事件,根據一目擊者確認,肇事車屬於藍車公司,目擊者的可靠性為80%。問肇事車是藍車的概率是多少。結果大多數被試判斷為80%,但如果考慮基礎概率則應是41%。
這一研究結果引發了20世紀70年代以來的大量研究。有研究支持其結論,如Eddy用前述乳腺癌問題讓內科醫生判斷,結果95%的人判斷介於70%~80%,遠高於7.8%[2]。Casscells等人的研究結果表明,即使哈佛醫學院的工作人員對解決如乳腺癌和與之相類似的問題都出現同樣的偏差[5]。
但也有研究發現,在許多條件下,被試對基礎概率的反應是敏感的。例如,如果問題的措辭強調要理解基礎概率與判斷的相關性[6]或強調事件是隨機抽樣的[7],則基礎概率忽略現象就會減少或消除。另一個引人注意的是Gigerenzer和Hoffrage1995年的研究,他們強調概率信息形式對概率判斷的影響。採用15個類似前述乳腺癌的文本問題進行了實驗,問題的概率信息用兩種形式呈現,一種沿用標準概率形式(百分數);一種用自然數表示的頻率形式,如“1000名婦女中有10名患有乳腺癌,在患有乳腺癌的婦女中8名婦女接受早期胸部X射線測定法檢查,在沒有患乳腺癌的990名婦女中有95名接受早期胸部X射線測定法檢查”。結果在頻率形式條件下,接近50%的判斷符合貝葉斯演演算法,而在標準概率條件下只有20%的判斷符合貝葉斯演演算法[8]。
而另一些研究者對此也提出異議,有人認為他們在改變信息形式的操作中,同時也改變了其他的變數。如Lewis和Keren[9]提出這種概率信息的改變使原來的一般性問題變成了當前單個情境的具體問題,因而問題變得容易,被試判斷的改善不能說明他們的計算與貝葉斯計算一致。另外Fiedler認為[10],他們進行頻率形式的操作為所有數據提供了一個共同的參照尺度——即所有數據都是相對於總體(1000名婦女)而言的,依靠它所有的數據變得容易比較。很明顯,接受X射線檢查並患乳腺癌的婦女的數量(8)與接受X射線檢查並無乳腺癌的婦女的數量(95)相比或與接受X射線檢查的婦女總數(103)相比都是非常小的。相反,在標準概率條件下,沒有共同的參照尺度,表面上擊中率(80%)遠高於誤報率(9.6%),但它們是相對於大小不同的亞樣本,而不是相對於總體,不能在同一尺度上進行數量比較。於是他們用4個問題進行了2(數據比較尺度:共同尺度/非共同尺度)×2(數據形式:標準概率/頻率)的被試間設計,實驗結果表明:不管採用哪一種數據形式,被試在非共同參照尺度條件下,判斷準確性都低,在共同參照尺度下,判斷準確性高。所以判斷準確性與數據形式無關。
可見,人們在概率判斷中忽略基礎概率是不是一種普遍現象,不同的研究之間存在較大分歧。這將促使研究者們採用各種方法對人們的概率判斷推理過程進行更深入的探討。
貝葉斯推理問題的研究範式
為了探討上述問題,人們採用了不同的研究範式。從已有的研究看,貝葉斯推理的研究範式主要有兩種,一種是文本範式,一種是經驗範式。
文本範式是實驗中的問題以文本的形式直接提供各事件的基礎概率和擊中率、誤報率等信息,讓被試對某一出現的事件作出概率大小的判斷。如前述的乳腺癌問題,工程師問題,計程車問題等的研究就是採用這一範式。
然而,在實際生活中,人們進行概率判斷需要從自己經歷過的事件中搜集信息,而不是像文本範式那樣被動得到這些信息。經驗範式便克服了文本範式的這一缺陷。經驗範式就是在實驗中讓被試通過經歷事件過程,主動搜集信息來獲得基礎概率、擊中率和誤報率等各種情況的信息,然後作出概率判斷。
例如,Lovett和Schunn[11]為了探討基礎概率信息和特殊信息對被試解決問題策略的影響,利用建築棒任務(Building Stick Task,BST)進行了實驗設計。對於一個給定的BST問題來說,計算機屏幕下方提供3條不同長度(長、中、短)的建築棒並在上方顯示一條一定長度的目標棒,要求被試用建築棒通過加法(中棒+短棒)策略或減法(長-中或短棒)策略製造目標棒。被試只能憑視覺估計每條棒的長度,迫使他們不能用代數方法而只能用策略嘗試來解決問題。基礎概率是兩種策略解決問題的基本成功率;特殊信息是建築棒與目標棒的接近類型對選擇策略的暗示性和所選策略成功的預見性:長棒接近目標棒則暗示使用減法策略,中棒接近目標棒則暗示使用加法策略,如果暗示性策略成功表明該策略具有預見性,否則為非預見性。問題設計時,在200個任務中控制兩種策略基本成功率(偏向:一策略高(如70%),另一策略低(如30%);無偏向:兩策略各50%)和暗示性策略對成功預見性的比例(有預見性:暗示性和非暗示性策略成功率分別為80%和20%;無預見性:暗示性和非暗示性策略成功率各50%)。研究者對被試在嘗試上述任務前後分別用10個建築棒任務進行了測試,發現被試在嘗試前主要根據特殊信息選擇策略,在嘗試後主要依據兩種策略的基本成功率信息選擇策略。說明人們在嘗試200個任務后對嘗試中的基礎概率信息的反映是敏感的。
經驗範式的優點在於,實驗操作過程非常接近人們在日常生活中獲得概率信息以作出判斷的情況,較為真實地反映了人們實際的表徵信息和作出概率判斷的過程。所以許多研究者採用了這一範式[12-14]。
但研究範式的變化並沒有能消除前述的爭論,在不同的研究範式下都存在人們對基礎概率信息的忽略或敏感現象,並出現了各種對基礎概率信息忽略或敏感現象進行解釋的理論。
小結
貝葉斯推理在過去近30年中得到了較為廣泛的研究,特別自Kahneman和Tversky發現人們直覺的概率判斷忽略基礎概率現象以來,出現了許多理論和研究方法的更新,這些都深化了對這一問題的研究。這些研究既揭示了人們概率估計中常見的認知錯誤,也為人們進行貝葉斯推理至少提供了以下啟示:首先,必須注意事件的基礎概率,基礎概率小的事件,即使某種擊中率較高,其出現的總概率仍然是較小的。如現實生活中中獎的機會等就是小概率事件。其次,應該對信息的外部表徵作理性的分析,不應受一些表面特徵所迷惑。如擊中率的高低並不決定該事件出現概率的高低。第三,不能過分相信經驗策略(如代表性啟發和可得性啟發)。雖然經驗策略有時能減輕人們的認知負荷並導致正確的概率估計,但也在許多情況下會誤導我們的判斷。如不要因為輿論經常宣傳癌症對人們生命的威脅就認為癌症致死的概率比心臟病致死的概率更高。當然,貝葉斯推理問題仍然值得做更進一步的研究,如人們對概率信息的內部加工過程及其特點,對基礎概率、擊中率或誤報率的敏感或忽略及其所依存的條件以及研究方法和手段的改進等。

幾種主要理論


如前所述,人們進行概率判斷時,在一些條件下忽略基礎概率,在另一些條件下並沒有忽略基礎概率。那麼,人們是如何作出判斷的呢?哪些因素在影響人們的概率推理呢?對此,不同的研究者提出了不同的觀點。
啟發法策略論
Kahneman和Tversky認為人們直覺的概率推理受認知策略的影響,這是一種依賴於經驗的判斷或猜測。所以,經常會作出錯誤的判斷。主要的認知策略包括“代表性啟發法”和“可得性啟發法”。
代表性啟發法是指人們傾向於根據樣本是否代表或類似總體來判斷其出現的概率,愈有代表性的,被判斷為出現的概率愈大,愈少代表性的被判斷為出現的概率愈小。例如,在他們的研究中,要求被試估計某城市有6個孩子的家庭中,男(B)女(G)兒童出生順序為GBGBBG和BGBBBB(B代表男孩,G代表女孩)的比例,結果大多數被試估計前者遠高於後者[3]。因為前者更能代表整個人口中的比例,其次它看起來更隨機。但從機會來說,兩者的概率應是相等的。
可得性啟發法是指人們傾向於根據某現象在知覺或記憶中容易得到的事例來估計其出現是概率,如他們在實驗中要求被試估計英語中以字母R、L、N、K、V開頭的單詞數和以它們為第三個字母的單詞數,結果絕大部分被試估計前者遠多於後者[15]。但實際上前者是的基礎比例遠低於後者的基礎比例。判斷錯誤的原因在於人們更容易回憶出以這些字母開頭的單詞,而不容易回憶起它們在中間位置的單詞。這與人們的記憶組織有關。
自然抽樣空間假說
Gavanski等[16]認為判斷一個事件出現的概率時,人們從什麼範圍抽取一樣本有一種自然的抽樣傾向,他們稱之為“自然抽樣空間”,如果直接從自然的抽樣空間中抽取的樣本對判斷事件的概率是無偏差的,則被試容易作出準確的判斷;但若要求被試從非自然抽樣空間中抽樣才能正確判斷事件的概率,則被試容易作出錯誤的判斷。如前述乳腺癌問題,被試從患乳腺癌的人群中抽樣來判斷接受X射線檢查的概率較為自然,因為被試更容易認為患乳腺癌的人要接受X射線檢查。但實驗任務是要求從接受X射線的人群中抽樣來判斷患乳腺癌的概率,這與被試的自然抽樣方向相反,導致被試對問題進行了錯誤的表徵,對照貝葉斯公式,被試的錯誤是把P(H[,1]/A)表徵為P(A/H[,1]),剛好與問題的要求相反,從而作出了錯誤的判斷。
頻率效應論
Gigerenzer和Hoffrage[8]同意自然抽樣的觀點,但他們所指的“自然”是人們加工概率信息的自然方式,認為人們是通過事件的頻率而不是標準概率(百分數)來獲得環境信息的,雖然兩種信息形式的意義相同,但人們對具有同等意義的不同外部信息形式會產生不同的心理表徵。他從進化論的角度出發認為,人類進行概率推理已經進化了一種認知演演算法規則系統,它不適合加工以百分數表示的標準概率信息,而適合加工以自然數表示的頻率信息,因為標準概率是在概率論發展以後才被人們認識的,而頻率在人類進化的早期就被認識了,所以人們對事件的頻率容易編碼而且幾乎是自動的,而對標準概率難於編碼。因此,它們預言當問題的陳述從標準概率形式轉變為頻率形式時,對條件概率的直覺推理會得到顯著改善,並在前述的他們的實驗中得到了支持。如果被試在判斷中是忽略基礎概率的,那麼在標準概率改為頻率形式時也應表現出來,但他們的實驗表明加工頻率信息的被試判斷的準確性明顯高於加工標準概率信息的被試。然而,正如前面所述,他們的結論也受到其他研究的挑戰。
抽樣加工理論
Fiedler[10]認為對概率判斷最根本的影響既不是抽樣方向也不是概率信息形式,而是抽取不同樣本所得的數據需要進行不同的認知加工。概率判斷中的認知加工分為兩個過程,一是歸納加工過程,即利用記憶中或知覺到的樣本進行的概率估計,如旅行前根據自己的經驗估計某個地區為晴天或雨天的概率。然而,由於受許多主觀(如個人偏好、期望等)和客觀條件(如過去的經驗是在一定時空下獲得的)的限制,根據可利用的樣本來估計概率會存在許多潛在的偏差,所以,要作出正確的判斷就必須調整抽樣過程中潛在的偏差,這是一個元認知控制過程,通過它,不同來源的樣本得到整合併運用於最後的概率判斷,這需要運用大量基於規則的元認知操作,包括使用邏輯規則、概率演算、統計學知識或元認知知識。如變換在不同尺度上估計的數量、顛倒條件概率、對來源於有偏差的樣本進行矯正等。
判斷者之所以忽略基礎概率而不遵循貝葉斯原理,是因為他們缺乏元認知手段,不能調整在抽樣過程中潛在的偏差。為驗證此結論,他們用4個問題(在此僅以乳腺癌為例)在計算機上設計了A、B兩種卡片盒,分別讓兩組被試自己搜索信息,告知被試A卡片盒的每張卡片正面標明是否患有乳腺癌的案例,背面告知是否參加X射線檢查,B卡片盒中每張卡片的正面和背面與前一個卡片盒的卡片內容相反,設計時設定基礎概率、擊中率和誤報率。屏幕的左邊行顯示正面內容,右邊小窗口顯示反面內容,被試點擊左邊行后才出現右邊窗口的反饋信息,確認后左邊行變成灰色,右邊窗口消失。信息搜索完畢時,屏幕底部顯示一刻度尺,用於被試標示判斷接受X射線檢查的婦女患乳腺癌的概率。這樣,看A卡片盒的被試明顯覺得乳腺癌的擊中率高,非乳腺癌的擊中率低,但做判斷時需要進行問題角度的轉換;而看B卡片盒的被試明顯了解到接受X射線檢查的婦女中患乳腺癌的案例很少,並可直接運用於問題判斷。結果表明:從B卡片盒獲取信息的被試判斷準確性高,從A卡片盒獲取的被試判斷準確性低。從而驗證了他們的結論。

案例


例1

參加常規x光透視檢查的40歲婦女中,患乳腺癌的概率是1%。如果一個婦女患了乳腺癌,她的胸透片呈陽性的概率是80%。如果一個婦女她沒有患乳腺癌,她的胸透片呈陽性的概率是9.6%。現有一個該年齡段的婦女她的胸透片呈陽性,那麼她實際患乳腺癌的概率有多少?如果把患乳腺癌和不患乳腺癌作為兩個互斥事件H和一H,他們的概率分別為P(H)和P(一H);把胸透片呈陽性作為在H和一H中都能觀察到某一共同特徵D,它在兩個事件中出現的概率分別為P(D/H)和P(D/-H);那麼,當D出現時,根據以上概率信息就可以計算出事件H發生的概率P(H/D)。一般將P(H)和P(一H)稱為基礎概率(base rate),將P(D/H)稱為擊中率(hit rate),將P(D/-H)稱為誤報率(false-alarm rate),將P(H/D)稱為後驗概率,其計算方法為:
P(H/D)=P(H)P(D/H)/[(P(H)P(D/H)+P(D/-H)P(-H)]
這就是貝葉斯公式,利用貝葉斯公式進行推斷的過程則稱之為貝葉斯推理。根據公式,P(H/D)=(1%×80%)/(1%×80%+99%×9.6%)=0.078。也就是說,陽性的檢查結果表明該婦女有7.8%的可能性患病。但是Eddy用該問題讓內科醫生判斷,結果95%的答案介於70%~80%,遠高於7.8%。儘管貝葉斯公式只是一些簡單的乘法、加法以及除法過程的結合,一個並沒有學過該公式的人也有可能在推斷中不自覺的應用這種方法,但是在包括上述乳腺癌問題在內的許多研究均發現,人們常常會犯類似的推理錯誤,稱之為基礎概率忽略(base-rate neglect)現象.Kahneman等(1982)提出啟發—偏差理論(heuristics and biases approach)來解釋這一現象,並由此引發了關於貝葉斯推理問題的大量研究和爭論國內外關於貝葉斯推理問題的研究方法主要是實驗法,將不同類型貝葉斯問題呈現給被試並要求他們解答,採用一定的指標對被試的解題過程和結果進行評價,據此來考察貝葉斯推理的認知過程和影響因素。本文以貝葉斯推理的影響因素為線索回顧了以往的研究,並對其中的一些問題進行了初步的分析和探討。

例2

某地區居民的肝癌發病率為0.0004,現用甲胎蛋白法進行普查。醫學研究表明,化驗結果是存有錯誤的。已知患有肝癌的人其化驗結果99%呈陽性(有病),而沒患肝癌的人其化驗結果99.9%呈陰性(無病)。試問:在化驗結果呈陽性的人中可能有多少人患有肝癌?
如果我們用A表示樣本的觀察證據“化驗結果呈陽性”,用H表示假說命題“被檢查者患有肝癌”,那麼由上面可知:
P(H)(即某地區居民的肝癌發病率)=0.0004
P(‘H)(即某地區居民沒患肝癌的比率)=1-0.0004=0.9996
P(E/H)(即患有肝癌者其化驗結果呈陽性的比率)=0.99
P(E/‘H)(即沒患肝癌者其化驗結果呈陽性的比率)=1-0.999=0.001
現在需要我們推斷的是P(H/E),即在化驗結果呈陽性的條件下,假說“被檢查者患有肝癌”的比率。顯然,根據重新解釋過的貝葉斯定理,我們可以很容易地得出P(H/E)的值。
P(H/E)=0.0004×0.99/((0.0004×0.99)+(0.9996×0.001))=0.284
這表明,在化驗結果呈陽性的人中,真患肝癌的人不到30%。這個結果可能會使人吃驚,但仔細分析一下就可以理解了。因為肝癌發病率很低,在10000個人中約有4人患肝癌,而9996個人不患肝癌。對10000個人用甲胎蛋白法進行檢查,按其錯檢的概率可知,9996個不患肝癌者中約有9996×0.001≌9.994個呈陽性,另外4個真患肝癌者的檢查報告中約有4×0.99≌3.96個呈陽性。僅從13.954(9.994+3.96)個呈陽性者中看,真患肝癌的3.96個人約佔28.4%。
從上例可以看出,貝葉斯推理實際是藉助於新的信息修正先驗概率的推理方法。顯然,這樣的方法如果運用得當,可以使我們在依據概率作出決斷時,不必一次收集一個長期過程的大量資料,而可以根據事物發展的情況,不斷利用新的信息來修正前面的概率,作出正確決策。下面的例子很好地說明了這一點。

例3

有甲、乙、丙三家工廠生產同一種零件,市場佔有率分別為10%、25%和65%。已知甲、乙、丙三家工廠生產零件的不合格率分別是30%、20%和10%。現從市場上某批零件中隨機抽取一件,經檢驗該零件不合格,則這個零件由甲廠、乙廠、丙廠生產的可能性各是多少?
在沒有抽取零件之前,我們知道,來自甲廠的產品其可能性是10%,來自乙廠的可能性是25%,來自丙廠的可能性是65%,這些就是先驗概率。相比來說,丙廠生產產品的概率最高。現在我們在市場上隨機抽出的是不合格品,這是一個新的信息,可以利用這個信息修正先驗概率。如果我們用E表示“抽出的零件是不合格品”,用H1、H2和H3分別表示假說命題“這個零件是由甲廠生產的”、“這個零件是由乙廠生產的”、“這個零件是由丙廠生產的”,那麼由上面可知:
P(H1)=0.1 P(H2)=0.25 P(H3)=0.65
P(E/H1)=0.3 P(E/H2)=0.2 P(E/H3)=0.1
根據貝葉斯推理我們可以很容易地得出P(H /E)、P(H )和P(H/E)。其中
P(H1/E)=0.1×0.3/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.207
P(H2/E)=0.25×0.2/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.345
P(H3/E)=0.65×0.1/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.448
顯然,根據上面的結果,我們判斷該零件是丙廠生產的可能性已從65%下降到44.8%,而該零件是乙廠生產的可能性已從25%上升到34.5%,是甲廠生產的可能性也已從10%上升到20.7%。
在上面的例子中,如果隨機抽取一件產品還不能提供充足的信息,可以再隨機抽取一件產品以獲取更多的信息。現在我們假定連續抽取兩件產品都是不合格品,那麼這批產品來自各廠的可能性又是多少呢?為了說明這個問題,首先要分別計算甲廠、乙廠、丙廠產品連續抽取兩個都是不合格品的概率各是多少。這裡假設產品是無限的,則有
P(E/H1)=0.3×0.3=0.09
P(E/H2)=0.2×0.2=0.04
P(E/H3)=0.1×0.1=0.01
然後仍然根據貝葉斯推理依次地得出P(H1/E)、P(H2/E)和P(H3/E)。其中
P(H1/E)=0.1×0.09/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.353
P(H2/E)=0.25×0.04/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.392
P(H3/E)=0.65×0.01/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.255
根據上面的結果,我們可看到,如果連續兩次抽取的都是不合格品,則這批產品來自甲、乙、丙三廠的可能性為35.3%、39.2%和25.5%。這種情況下,這批產品來自乙廠的可能性變為最大。
我們還可以再進一步,假定從一批產品中隨機抽取三件產品,抽樣結果是:不合格、不合格、合格。此時甲廠、乙廠、丙廠產品抽取結果為不合格、不合格、合格的概率分別為(此時A表示“抽出的零件是不合格、不合格、合格”)
P(E/H1)=0.3×0.3×(1-0.3)=0.063
P(E/H2)=0.2×0.2×(1-0.2)=0.032
P(E/H3)=0.1×0.1×(1-0.1)=0.009
根據貝葉斯推理依次地可得出這批產品來自甲、乙、丙三廠的可能性分別為
P(H1/E)=0.1×0.063/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.313
P(H2/E)-0.25×0.032/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.397
P(H3/E)=0.65×0.009/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.290
顯然,根據新的抽樣信息,我們修正了先驗概率,使來自甲、乙、丙三廠的概率分別修正為31.3% 39.7%和29.0%。
我們再來看一個用貝葉斯推理分析伊索寓言“孩子與狼”的例子。
伊索寓言“孩子與狼”講的是一個小孩每天到山上放羊,山裡有狼出沒。第一天,他在山上喊:“狼來了!狼來了!”,山下的村民聞聲便去打狼,可到山上發現狼沒有來。第二天仍是如此。第三天狼真的來了,可無論小孩怎麼喊叫,也沒有人來救他,因為前二次他說了謊,人們不再相信他了。現在用貝葉斯推理來分析此寓言中村民對這個小孩的可信程度是如何下降的。
我們用E表示“小孩說謊 用H表示“小孩可信”。不妨設村民過去對這個小孩的印象為P(H)=0.8,則P('H)=0.2
我們現在用貝葉斯推理來推斷P(H/E),也即這個小孩說了一次謊后,村民對他可信程度的改變。
在貝葉斯推斷中我們要用到概率P(E/H)和P(E/'H),前者為可信的孩子說謊的可能性,後者為不可信的孩子說謊的可能性。在此不妨設P(E/H)=0.1,P(E/'H)=0.5
第一次村民上山打狼,發現狼沒有來,即小孩說了謊。村民根據這個信息,對這個小孩的可信程度改變為P(H/E)=0.8×0.1/((0.8×0.1)+(0.2×0.5))=0.444這表明村民上了一次當后,對這個小孩的可信程度由原來的0.8下降到了0.444。
在此基礎上,我們再一次用貝葉斯推理來推斷P(H/E),也即這個小孩第二次說謊后,村民對他的可信程度改變為P(H/E)=0.444×0.1/((0.444×0.1)+(0.556×0.5))=0.138這表明村民們經過兩次上當,對這個小孩的可信程度已經從0.8下降到了0.138,如此低的可信度,村民聽到第三次呼叫時怎麼再會上山打狼呢?

例4

通過觀察知道,牽牛花是在黎明4時左右開放,野薔薇是在黎明5時左右開放,龍葵花是在清晨6時左右開放,芍藥花是在清晨7時左右開放。它們開放的時間雖然不同,但都有確定的開放時間,由此可見所有的花都有確定的開花時間。
顯然,這是一個簡單枚舉歸納推理,相對於觀察前提,結論“所有的花都有確定的開花時間”可靠嗎?結論為真的可信程度有多大?是否可以用量來刻劃?這些問題用貝葉斯推理的方法是可以解決的。
我們用E1、E2、E3、E4分別表示牽牛花有確定的開放時間、野薔薇有確定的開放時間、龍葵花有確定的開放時間、芍藥花有確定的開放時間,它們的合取用字母E來表示。結論“所有的花都有確定的開花時間”用H表示。這樣,我們現在需要確定的就是P(H/E)。
根據貝葉斯推理的形式,我們有
(1)P(H/E)=P(H)×P(E/H)/(P(H)×P(E/H)+P('H)×P(E/'H))由於枚舉歸納的前提可從結論中必然推出,即P(E/H)=1。因此,由(1)可得:
(2)P(H/E)=P(H)/(P(H)+P('H)×P(E/'H))根據邏輯否定規則,由(2)可得出:
(3)P(H/E)=P(H)/(P(H)+(1-P(H))×P(E/'H))
在(3)中,P(E/'H)表示,假定歸納結論H不真,E(即E1、E2、E3、E4等)為肯定事例的概率。
現在上面的問題可以解決了。相對於背景知識,已知歸納結論H 的先驗概率P(H)=0.5,在H不真時“牽牛花有確定的開放時間”、“野薔薇有確定的開放時間”等肯定事例出現的先驗概率P(E /‘H)=0.8。把以上數據代入(3)得:
P(H/E)=0.5/(0.5+(1-0.5)×0.8)
= 0.5/0.90
= 0.56
這說明,相對於觀察證據E1、E2、E3、E4而言,歸納結論H(所有的花都有確定的開花時間)的可信程度為百分之五十六。

影響因素


問題內容

貝葉斯推理問題總是通過某種具體事例來進行表述的。Kahneman和Amos Tversky認為,被試在概率推理中使用了代表性啟髮式(representativeness heuristics),他們進行推斷所依據的是問題內容中特徵對事件的代表性程度而不是貝葉斯規則刪。按照他們的理論,在前述的乳腺癌問題中,由於陽性的檢查結果很大程度上代表了有病的信息,所以被試在判斷中忽略了問題的基礎概率,而主要根據擊中率信息進行推理。Gavanski等同所提出的自然抽樣空間(natural sample spaces)理論認為,被試的判斷錯誤不在於忽略了基礎概率,而是把后驗概率P(H/D)表徵為了擊中率P(D/H),因為從事件H (患有乳腺癌)中抽取特徵D (檢查呈陽性)的取樣方式更為自然。或者說,事件是原因,特徵是結果,從原因到結果的取樣方向才更符合人類的思維習慣。事件與特徵之間的因果關係或代表性程度都是由問題的內容所決定,因此可以認為這兩種理論都是從問題內容角度來解釋貝葉斯推理中的認知錯覺的。後來的一些研究者雖然也使用了不同內容的貝葉斯問題,但主要是考察它們的平均效應,很少考慮到問題內容對貝葉斯推理的影響。
Girotto和Gonzalez(2001)在他們的研究中使用了疾病問題、入學問題等貝葉斯推理任務,他們發現被試在這兩類問題上的推理成績並沒有表現出顯著差異,即貝葉斯推理問題不存在內容效應(efect of content)。但有研究者認為,人們對入學考試和醫學檢查的結果都比較信賴,因此,以考試結果預測錄取率和以檢查結果預測患病率一樣具有權威性,仍然可以用代表性啟發法進行推斷。研究者自行編製了“作家問題”,將貝葉斯問題中的事件與特徵換成了作家和影迷。影迷與作家之問並不像陽性與疾病之間那樣存在著關聯,因此不能用代表性啟發法進行推斷。他們將作家問題與疾病問題進行對比研究,發現在同樣的基礎概率、擊中率和誤報率條件下,人們對作家問題的概率估計值顯著低於疾病問題,並由此得出結論:貝葉斯推理中存在著內容效應。
近年來,隨著社會認知研究的興起,越來越多的研究開始關注“熱”認知的過程。張向陽等(2006)設計不同內容的問題研究了情緒、動機等因素對貝葉斯推理的影響。他們採用2(事件性質:積極事件/消極事件) ×2(事件與主體的關係:與主體有關/與主體無關)的混合設計進行實驗,其中事件性質為被試內因素,事件與主體關係為被試間因素。研究發現被試對於消極事件的概率估計值顯著低於積極事件,對與己有關的消極事件的概率估計值顯著低於與己無關的消極事件。
由此可見,問題內容會導致被試在認知、情緒和動機等方面產生一定的傾向性,從而在不同程度上影響貝葉斯推理的結果。這與主觀概率的支持理論是一致的,該理論認為:人類在不確定條件下的概率判斷不符合外延性原則(extensionality principle)而是表現出描述依賴性,即對同一外延事件的不同描述所做出的主觀概率不同。

信息格式

信息格式(information format)指的是貝葉斯推理問題中概率數據的形式,包括數據的類型及其相互關係。早期研究中採用的數據大都是百分數形式,Gigerenzer和Hoffrage(1995)指出,從進化論角度來說,人類祖先在其進化環境中所遇到的信息形式是自然頻數(natural irequencies)格式而不是近代才出現的概率和百分數形式,被試在某些問題中犯推理錯誤並不說明人類不能按照貝葉斯規則進行推理,而是由於問題的信息格式與人類的認知演演算法規則不一致造成的。他們用自然頻數的信息格式,對乳腺癌問題中的概率信息進行如下表述:每1000名婦女中有10名患有乳腺癌(對應於1%的基礎概率)。在患有乳腺癌的10名婦女中,有8名婦女胸透片呈陽性(對應於80%的擊中率)。未患乳腺癌的990婦女中,有95名胸透片呈陽性(對應於9.6%的誤報率)。研究發現:在自然頻率形式條件下,46%的判斷符合貝葉斯定理,而概率條件下只有16%的判斷符合貝葉斯定理。因此他們認為,採用自然頻數的信息格式可以幫助人們在無需刻意指導的情況下按照貝葉斯規則進行推斷。Cosmides和Tooby(1996)同意Gigerenzer和Hoffrage的生態與進化觀點,並通過進一步的研究支持了他們的理論{“1。Sedlmeier等(2001)也認為自然頻數格式更符合人類的信息表徵方式,他們採用相應的“頻數樹”(Frequency Tree)方法對人們的貝葉斯推理能力進行訓練,並認為該方法可以使人們更快的學會使用貝葉斯推理規則,其效果優於“概率樹”(Probability Tree)訓練法。
Lewis和Keren(1999)認為,自然頻數格式下的乳腺癌問題改變了兩個因素:一是,數據形式由概率變為頻數;二是,信息取樣方式由條件式(conditiona1)變為結合式(joint)。他們提出了條件式頻數的信息表徵方式:每1000名婦女中有10名患有乳腺癌(對應於1%的基礎概率)。在患有乳腺癌的婦女中,每1000人中有800名婦女胸透片呈陽性(對應於80%的擊中率)。未患乳腺癌的婦女中,每1000人有96人胸透片呈陽性(對應於9.6%的誤報率)。研究發現,被試在該條件下的正確率為4%,顯著低於結合式頻率(即自然頻率)條件下的30%。因此他們認為被試成績的提高不是因為數據形式由概率變為了頻數,而是信息由條件式變為了結合式。Mellers和McGraw (1999)則認為,頻數和結合式都可以改進貝葉斯推理,哪種條件佔優勢取決於事件的性質。頻數格式比概率格式更有利於人們對稀有事件的理解,此類問題中,頻數格式更容易提高被試的成績;結合式有助於人們建立適宜的心理模型(mental models),一般性事件中,他的優勢會更加明顯。
Fiedler等(2000)也對Gigerenzer和Hoffrage的研究提出質疑,他們認為自然頻數格式一方面將數據形式由概率變為頻數,另一方面也將參照尺度(reference scale)由不一致變為了一致。自然頻數格式中,所有信息都是來自同一個1000人的樣本,有著一致的參照尺度,數據之間可以進行直接的比較和計算,因此推理顯得容易。他們通過實驗研究發現,無論哪一種數據形式,只要參照尺度一致,被試進行推理的成績都比較好。由此同樣證明了頻數並不是成績提高的關鍵。
Girotto和Gonzalez(2001)認為是提問形式和信息結構共同影響了推理成績。自然頻數的表述中,不僅是將概率數據變成了頻率數據,而且還將提問形式由一步變成了兩步(...人中有...人),將信息結構由未分割數據變為了分割數據(partitioned data)。所謂分割結構數據就是將1000分割為了10和990兩部分,又從10中分割出8,從990中分割出95。他們通過實驗考察了提問形式、信息結構以及數據類型等因素,結果發現,無論在概率還是頻數格式下,兩步提問的貝葉斯推理的成績優於單步提問的成績,具有分割的信息結構的問題成績優於不具有分割信 結構的問題。
以上關於貝葉斯推理的信息格式的研究和爭議最初是源於Gigerenzer和Hofrage提出的自然頻數理論。但後來的研究者似乎誤解了他們的原意,主要是在“頻數”上作爭論,而忽視了“自然”的意義。Gigerenzer和Hofrage強調,他們所說的頻數並非任意形式下的頻數,而是通過自然取樣獲得的自然頻數。因為自然頻數攜帶了有關基礎比率的信息,所以簡化了貝葉斯計算。很顯然,他們所說的“自然頻數”就是Lewis和Kere所說的“結合式頻數”、Fiedler等所說的“一致性參照尺度下的頻數”以及Girotto和Gonzalez所說的“分割結構的頻數”。這些研究者都同意,該方式下推理會變得簡單。但頻數是否能起到作用呢?Gigerenzer和Hofrage不同意其他研究者的觀點,他們通過考察“結合式頻數”和“結合式概率”兩種條件,發現前者的成績明顯好於後者。但Fiedler等(2000)的研究表明,這兩種條件下,被試成績的差異是不顯著的,這可能與兩種研究使用了不同的表述方式有關。總的來說,信息格式中所包括的數據類型和結構都會對貝葉斯推理的成績產生影響,其中後者的作用更為明顯。

信息呈現方式

大多數有關貝葉斯推理的研究中,概率信息都是以整理好的百分數或自然數的形式直接呈現給被試的,但也有的研究中採用另一種信息呈現方式,得到了一些不同的結果。Fiedler等(2000)將乳腺癌問題中的患病信息和診斷信息分別在卡片的正反兩面先後呈現給被試,讓他們根據其中一種信息搜索另一種信息。例如,先在電腦上呈現患病信息,被試點擊后反饋診斷信息。研究發現,被試根據診斷信息搜索患病信息時,判斷的準確性更高,且與相反條件下差異顯著。李曉明等(2004)模擬人們平時獲得信息的情景對貝葉斯推理問題進行了研究,他們將患病信息和診斷信息以樣例的方式逐個呈現給被試,例如,其中一個樣例為“體檢者1號,化驗結果:陰性;診斷結果:沒有甲病”,依此類推。測試階段為“體檢者11號,化驗結果:陽性;診斷結果:請你判斷該人實際患有甲病的概率有多大?”研究發現被試在該條件下的成績優於概率信息集中呈現條件下的成績,但是比頻率集中呈現條件下的成績差。一般將這種讓被試在實驗中通過經歷事件過程主動收集信息的研究範式叫做經驗範式,而將直接在實驗中向被試提供概率信息的方式稱為文本範式。不同的信息呈現方式會影響信息的獲取與加工方式,從而影響推理的過程與結果。

個體因素

除了問題本身的內容、信息格式和呈現方式等因素之外,推理者的知識、經驗以及思維方式等因素也會影響貝葉斯推理問題的解決。張向陽等(2006)認為,醫務人員之所以對人患病的概率作出高估,可能正是他們的醫學經驗在起作用。另一方面,如果被試具備相關的概率知識,則可能會促進貝葉斯推理問題的解決。研究者以被試的知識背景為自變數,用專家(有概率知識的數學系大學生)和新手(無概率知識的其他系大學生)進行對比實驗。研究表明:在貝葉斯推理中,專家的概率知識背景有助於他們運用貝葉斯規則進行推理,概率估計準確性明顯好於新手。這一結論與史滋福等(2006)的研究結果有所不同,他們以數學系和中文系的大學生為被試進行實驗,發現兩者之問概率估計的準確性沒有顯著差異。研究者認為,文理科被試之間並不存在所謂的思維類型不同而導致複雜概率推理成績差異的現象。傅小蘭等(2005)在考察不同信息表徵方式對貝葉斯推理的影響時發現,中外被試在某些條件下的表現不同甚至相反。在Girott0和GonZalez的研究中,被試解決兩步問題的成績總是優於解決一步問題的成績。而傅小蘭等的研究卻表明:對於中國被試而言,兩步問題形式並不能改進他們解決貝葉斯推理問題的成績,甚至在某些情況下還會幹擾他們做出正確的回答。研究者認為,這可能在一定程度上反映了東西方人的不同思維風格和特點:對西方人而言,分析性的思維操作有助於他們順利解決貝葉斯推理問題,而中國被試面對貝葉斯推理問題時則更傾向於整體性解決,因此,他們解決兩步問題與解決一步問題的成績之間沒有出現顯著差別,甚至解決一步問題的表現可能還會更好一些。另外,問題提問信息格式對中國被試解決貝葉斯推理問題也有影響,與概率格式相比,頻數格式可以顯著改善兩步問題的貝葉斯推理成績。這也與Girotto和Gonzalez的研究結果也不一致。後者的研究結果表明,問題提問的信息格式不影響被試解決貝葉斯推理問題的成績。研究者認為,這可能也是由於東西方人思維方式的差異造成的。