樸素貝葉斯分類器
樸素貝葉斯分類器
樸素貝葉斯分類器是一系列以假設特徵之間強(樸素)獨立下運用貝葉斯定理為基礎的簡單概率分類器。該分類器模型會給問題實例分配用特徵值表示的類標籤,類標籤取自有限集合。它不是訓練這種分類器的單一演演算法,而是一系列基於相同原理的演演算法:所有樸素貝葉斯分類器都假定樣本每個特徵與其他特徵都不相關。
樸素貝葉斯概率模型
儘管是帶著這些樸素思想和過於簡單化的假設,但樸素貝葉斯分類器在很多複雜的現實情形中仍能夠獲取相當好的效果。2004年,一篇分析貝葉斯分類器問題的文章揭示了樸素貝葉斯分類器獲取看上去不可思議的分類效果的若干理論上的原因。儘管如此,2006年有一篇文章詳細比較了各種分類方法,發現更新的方法(如決策樹和隨機森林)的性能超過了貝葉斯分類器。樸素貝葉斯分類器的一個優勢在於只需要根據少量的訓練數據估計出必要的參數(變數的均值和方差)。由於變數獨立假設,只需要估計各個變數的方法,而不需要確定整個協方差矩陣。
樸素貝葉斯自20世紀50年代已廣泛研究。在20世紀60年代初就以另外一個名稱引入到文本信息檢索界中,並仍然是文本分類的一種熱門(基準)方法,文本分類是以詞頻為特徵判斷文件所屬類別或其他(如垃圾郵件、合法性、體育或政治等等)的問題。通過適當的預處理,它可以與這個領域更先進的方法(包括支持向量機)相競爭。它在自動醫療診斷中也有應用。
樸素貝葉斯分類器是高度可擴展的,因此需要數量與學習問題中的變數(特徵/預測器)成線性關係的參數。最大似然訓練可以通過評估一個封閉形式的表達式來完成,只需花費線性時間,而不需要其他很多類型的分類器所使用的費時的迭代逼近。在統計學和計算機科學文獻中,樸素貝葉斯模型有各種名稱,包括簡單貝葉斯和獨立貝葉斯。所有這些名稱都參考了貝葉斯定理在該分類器的決策規則中的使用,但樸素貝葉斯不(一定)用到貝葉斯方法;《Russell和Norvig》提到“‘樸素貝葉斯’有時被稱為貝葉斯分類器,這個馬虎的使用促使真正的貝葉斯論者稱之為傻瓜貝葉斯模型。”
分類器的構造方法很多,常見的有貝葉斯方法、決策樹方法、基於實例的學習方法、人工神經網路方法、支持向量機方法、基於遺傳演演算法的方法、基於粗糙集的方法、基於模糊集的方法等等。其中,貝葉斯方法正以其獨特的不確定性知識表達形式、豐富的概率表達能力、綜合先驗知識的增量學習特性等成為眾多方法中最為引人注目的焦點之一。分類是一個兩步過程。第一步,用已知的實例集構建分類器。這一步一般發生訓練階段或叫學習階段。用來構建分類器的已知實例集稱作訓練實例集,訓練實例集中的每一個實例稱作訓練實例。由於訓練實例的類標記是已知的,所以分類器的構建過程是有導師的學習過程。相比較而言,在無導師的學習過程中,訓練實例的類標記是未知的,有的時候甚至連要學習的類別數也可能是未知的,比如聚類。
第二步,使用構建好的分類器分類未知實例。這一步一般發生測試階段或叫工作階段。用來分類的未知實例稱作測試實例。一般在分類器被用來預測之前,需要對它的分類精度進行評估。只有分類準確率達到要求的分類器才可以用來對測試實例進行分類。
貝葉斯方法提供了推理的一種概率手段。它假定待考查的變數遵循某種概率分佈,且可根據這些概率及己觀察到的數據進行推理,從而作出最優的決策。貝葉斯方法不僅能夠計算顯式的假設概率,還能為理解多數其他方法提供一種有效的手段同。貝葉斯方法的特點主要包括:增量式學習的特點;先驗知識可以與觀察到的實例一起決定假設的最終概率的特點;允許假設做出不確定性預測的特點;對新實例的分類可由多個假設以它們的概率為權重一起作出預測的特點等等。
最大似然估計是一種統計方法,它用來求一個樣本集的相關概率密度函數的參數。這個方法最早是遺傳學家以及統計學家羅納德·費雪爵士在1912年至1922年間開始使用的。
“似然”是對likelihood 的一種較為貼近文言文的翻譯,“似然”用現代的中文來說即“可能性”。故而,若稱之為“最大可能性估計”則更加通俗易懂。