半監督學習

半監督學習

半監督學習(Semi-Supervised Learning,SSL)是模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。半監督學習使用大量的未標記數據,以及同時使用未標記數據,來進行模式識別工作。當使用半監督學習時,將會要求盡量少的人員來從事工作,同時,又能夠帶來比較高的準確性,因此,半監督學習正越來越受到人們的重視。

基本簡介


機器學習領域中,傳統的學習方法有兩種:監督學習和無監督學習。半監督學習(Semi-supervised Learning)是近年來模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。它主要考慮如何利用少量的標註樣本和大量的未標註樣本進行訓練和分類的問題。半監督學習對於減少標註代價,提高學習機器性能具有非常重大的實際意義。

根本假設


聚類假設
聚類假設是指樣本數據間的距離相互比較近時,則他們擁有相同的類別。根據該假設,分類邊界就必須儘可能地通過數據較為稀疏的地方,以能夠避免把密集的樣本數據點分到分類邊界的兩側。在這一假設的前提下,學習演演算法就可以利用大量未標記的樣本數據來分析樣本空間中樣本數據分佈情況,從而指導學習演演算法對分類邊界進行調整,使其盡量通過樣本數據布局比較稀疏的區域。例如,Joachims提出的轉導支持向量機演演算法,在訓練過程中,演演算法不斷修改分類超平面並交換超平面兩側某些未標記的樣本數據的標記,使得分類邊界在所有訓練數據上最大化間隔,從而能夠獲得一個通過數據相對稀疏的區域,又儘可能正確劃分所有有標記的樣本數據的分類超平面。
流形假設
流形假設的主要思想是同一個局部領域內的樣本數據具有相似的性質,因此其標記也應該是相似。這一假設體現了決策函數的局部平滑性。和聚類假設的主要不同是,聚類假設主要關注的是整體特性,流形假設主要考慮的是模型的局部特性。在該假設下,未標記的樣本數據就能夠讓數據空間變得更加密集,從而有利於更加標準地分析局部區域的特徵,也使得決策函數能夠比較完滿地進行數據擬合。流形假設有時候也可以直接應用於半監督學習演演算法中。例如,Zhu 等人利用高斯隨機場和諧波函數進行半監督學習,首先利用訓練樣本數據建立一個圖,圖中每個結點就是代表一個樣本,然後根據流形假設定義的決策函數的求得最優值,獲得未標記樣本數據的最優標記;Zhou 等人利用樣本數據間的相似性建立圖,然後讓樣本數據的標記信息不斷通過圖中的邊的鄰近樣本傳播,直到圖模型達到全局穩定狀態為止。
從本質上說,這兩類假設是一致的,只是相互關注的重點不同。其中流行假設更具有普遍性。

主要演演算法


半監督學習的主要演演算法有五類:基於概率的演演算法;在現有監督演演算法基礎上作修改的方法;直接依賴於聚類假設的方法;基於多視圖的方法;基於圖的方法。

存在的不足


半監督學習分類演演算法從提出到現在時間比較短,還有許多方面沒有更深入的研究,下面根據自己的學習提出半監督學習分類演演算法研究中還存在的一些不足。
半監督學習分類演演算法的現實價值
半監督學習從誕生以來,主要用於處理人工合成數據、只在實驗室試用,還沒辦法在某個現實領域得到應用,也就是說,其現實意義沒體現出來;因此,半監督學習的實際應用價值問題值得更多的研究。
新假設的提出
文中前面敘述到的各種半監督分類演演算法的假設,提出新的模型假設可能會改進半監督分類演演算法。所以對半監督學習分類演演算法的模型假設的研究將是十分有價值的。
半監督學習的抗干擾性比較弱
無雜訊干擾的樣本數據是當前大部分半監督學習方法使用的數據,而在實際生活中用到的數據卻大部分不是無干擾的,通常都比較難以得到純樣本數據。上面談論的三個基本假設顯然是有效的,不過過於簡約,這些假設沒能把雜訊干擾下未標記樣本數據分佈的不確定性以及它的複雜性充分的考慮全。
參考資料:陳武錦,半監督學習研究綜述,電腦知識與技術,2011.6