樸素貝葉斯分類器

樸素貝葉斯分類器

樸素貝葉斯分類器是一系列以假設特徵之間強(樸素)獨立下運用貝葉斯定理為基礎的簡單概率分類器。該分類器模型會給問題實例分配用特徵值表示的類標籤,類標籤取自有限集合。它不是訓練這種分類器的單一演演算法,而是一系列基於相同原理的演演算法:所有樸素貝葉斯分類器都假定樣本每個特徵與其他特徵都不相關。

簡介


樸素貝葉斯概率模型
樸素貝葉斯概率模型
樸素貝葉斯分類是一種十分簡單的分類演演算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素。樸素貝葉斯的思想基礎是這樣的:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。舉個例子,如果一種水果其具有紅,圓,直徑大概3英寸等特徵,該水果可以被 判定為是蘋果。儘管這些特徵相互依賴或者有些特徵由其他特徵決定,然而樸素貝葉斯分類器認為這些屬性在判定該水果是否為蘋果的概率分佈上獨立的。對於某些類型的概率模型,在監督式學習的樣本集中能獲取得非常好的分類效果。在許多實際應用中,樸素貝葉斯模型參數估計使用最大似然估計方法;換而言之,在不用到貝葉斯概率或者任何貝葉斯模型的情況下,樸素貝葉斯模型也能奏效。
儘管是帶著這些樸素思想和過於簡單化的假設,但樸素貝葉斯分類器在很多複雜的現實情形中仍能夠獲取相當好的效果。2004年,一篇分析貝葉斯分類器問題的文章揭示了樸素貝葉斯分類器獲取看上去不可思議的分類效果的若干理論上的原因。儘管如此,2006年有一篇文章詳細比較了各種分類方法,發現更新的方法(如決策樹和隨機森林)的性能超過了貝葉斯分類器。樸素貝葉斯分類器的一個優勢在於只需要根據少量的訓練數據估計出必要的參數(變數的均值方差)。由於變數獨立假設,只需要估計各個變數的方法,而不需要確定整個協方差矩陣。

發展


樸素貝葉斯自20世紀50年代已廣泛研究。在20世紀60年代初就以另外一個名稱引入到文本信息檢索界中,並仍然是文本分類的一種熱門(基準)方法,文本分類是以詞頻為特徵判斷文件所屬類別或其他(如垃圾郵件、合法性、體育或政治等等)的問題。通過適當的預處理,它可以與這個領域更先進的方法(包括支持向量機)相競爭。它在自動醫療診斷中也有應用。
樸素貝葉斯分類器是高度可擴展的,因此需要數量與學習問題中的變數(特徵/預測器)成線性關係的參數。最大似然訓練可以通過評估一個封閉形式的表達式來完成,只需花費線性時間,而不需要其他很多類型的分類器所使用的費時的迭代逼近。在統計學計算機科學文獻中,樸素貝葉斯模型有各種名稱,包括簡單貝葉斯和獨立貝葉斯。所有這些名稱都參考了貝葉斯定理在該分類器的決策規則中的使用,但樸素貝葉斯不(一定)用到貝葉斯方法;《Russell和Norvig》提到“‘樸素貝葉斯’有時被稱為貝葉斯分類器,這個馬虎的使用促使真正的貝葉斯論者稱之為傻瓜貝葉斯模型。”

貝葉斯方法


分類器的構造方法很多,常見的有貝葉斯方法、決策樹方法、基於實例的學習方法、人工神經網路方法、支持向量機方法、基於遺傳演演算法的方法、基於粗糙集的方法、基於模糊集的方法等等。其中,貝葉斯方法正以其獨特的不確定性知識表達形式、豐富的概率表達能力、綜合先驗知識的增量學習特性等成為眾多方法中最為引人注目的焦點之一。分類是一個兩步過程。第一步,用已知的實例集構建分類器。這一步一般發生訓練階段或叫學習階段。用來構建分類器的已知實例集稱作訓練實例集,訓練實例集中的每一個實例稱作訓練實例。由於訓練實例的類標記是已知的,所以分類器的構建過程是有導師的學習過程。相比較而言,在無導師的學習過程中,訓練實例的類標記是未知的,有的時候甚至連要學習的類別數也可能是未知的,比如聚類
第二步,使用構建好的分類器分類未知實例。這一步一般發生測試階段或叫工作階段。用來分類的未知實例稱作測試實例。一般在分類器被用來預測之前,需要對它的分類精度進行評估。只有分類準確率達到要求的分類器才可以用來對測試實例進行分類。
貝葉斯方法提供了推理的一種概率手段。它假定待考查的變數遵循某種概率分佈,且可根據這些概率及己觀察到的數據進行推理,從而作出最優的決策。貝葉斯方法不僅能夠計算顯式的假設概率,還能為理解多數其他方法提供一種有效的手段同。貝葉斯方法的特點主要包括:增量式學習的特點;先驗知識可以與觀察到的實例一起決定假設的最終概率的特點;允許假設做出不確定性預測的特點;對新實例的分類可由多個假設以它們的概率為權重一起作出預測的特點等等。

最大似然估計


最大似然估計是一種統計方法,它用來求一個樣本集的相關概率密度函數的參數。這個方法最早是遺傳學家以及統計學家羅納德·費雪爵士在1912年至1922年間開始使用的。
“似然”是對likelihood 的一種較為貼近文言文的翻譯,“似然”用現代的中文來說即“可能性”。故而,若稱之為“最大可能性估計”則更加通俗易懂。
最大似然法明確地使用概率模型,其目標是尋找能夠以較高概率產生觀察數據的系統發生樹。最大似然法是一類完全基於統計的系統發生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的概率。
例如,轉換出現的概率大約是顛換的三倍。在一個三條序列的比對中,如果發現其中有一列為一個C,一個T和一個G,我們有理由認為,C和T所在的序列之間的關係很有可能更接近。由於被研究序列的共同祖先序列是未知的,概率的計算變得複雜;又由於可能在一個位點或多個位點發生多次替換,並且不是所有的位點都是相互獨立概率計算的複雜度進一步加大。儘管如此,還是能用客觀標準來計算每個位點的概率,計算表示序列關係的每棵可能的樹的概率。然後,根據定義,概率總和最大的那棵樹最有可能是反映真實情況的系統發生樹。