文檔分類

漢語詞語

文檔分類是圖書館學,信息學計算機科學中的一個問題。其任務是將一個文檔分配到一個或者多個類別中。它可以是通過人工分類完成的,也可以是通過計算機演演算法實現的。多數通過人工的文檔分類問題一直屬於圖書館學的領域,而通過演演算法實現的文檔分類問題則多屬於信息學和計算機科學的領域。這些問題之間是有相同的部分的,所以有一些對文檔分類的跨學科研究

需要被分類的文檔有可能是純文本,圖片,音樂等等。每一種文檔都有其獨特分類問題。根據特殊的文檔做研究,文檔分類可以細分成文本分類,圖片分類等等。

可以根據主題來進行文檔分類,也可以根據它的屬性(例如文檔的類型,作者,出版的時間等)進行分類。下文只包含主題分類的問題。主要由兩種方法來做根據主題的文檔分類:基於內容的方法以及基於請求的方法。

分類方法


基於內容的分類

基於內容的分類方法是通過特殊主題上的不同權重來決定該文檔被分到哪個類別中的。一般來說,在圖書館中,當一個文檔被劃分到某個類別時,這個文檔中至少要有20%的內容是關於這個類的。在自動分類的領域,這個標準可能是一些給定單詞在文檔中出現的頻率。

面向請求的分類

面向請求的分類(或者索引) 是通過向用戶獲得請求后,根據用戶的請求將文檔進行分類。一個形象的比喻,好比分類器會問自己:“我應該通過哪種特徵找到這些文檔呢”,或者“通過哪些本質特徵能夠讓我找出我身邊相關的文檔呢?”
面向請求的分類主要的適用對象是一個特定的用戶或群體。比方說,一個需要一定數據去研究女權主義的信息庫與一個研究歷史的信息庫相比就是一個特定的用戶。有一種更好的理解面向請求的分類,就是把它理解成為“基於策略的分類”:基於特殊群體的請求,通過一定的想法和策略進行分類,從而達到目的。在這種方式下,分類方式就不一定是100%基於用戶研究的領域了,可以通過一些共性的策略,加以組合或修改,來實現用戶的請求。只有從用戶和應用中獲得的經驗使用了,面向請求的分類才可以被認為是一種基於用戶的實現方法。

文檔自動分類


文檔自動分類的任務可以分為三類:監督式學習的文檔分類,這需要人工反饋數據的一些 外在機制。非監督式學習的文檔分類(也被稱作文檔聚類),這類任務完全不依靠外在人工機制。和半監督式學習的文檔分類,是前兩類的結合,它其中有一部分的文檔是由人工標註的,這有一些相關方面的具有許可證的軟體。

使用工具


自動的文檔分類工具如下:
• 最大期望演演算法(EM)
• 樸素貝葉斯分類器
• tf–idf
• 瞬時訓練神經網路
• 潛在語義學
• 支持向量機(SVM)
• 人工神經網路
• 最近鄰居法
• 決策樹比如ID3或C4.5
• 概念挖掘
• 基於粗集合的分類器
• 基於軟集合的分類器
• 多示例學習
• 自然語言處理的方法

應用領域


分類工具被應用於如下:
• 郵件過濾,一種能夠從合法郵件中檢查出垃圾電子郵件的方法。
• 電子郵件按路線送達, 根據本話題內容中提到的方法將電子郵件送至一個特殊群體的一般地址。
• 語言辨識, 自動辨識一個文檔中的語言。
• 流派分類, 自動辨識一個純文本的流派。
• 可讀性評價, 自動評價一個純文本的可讀性程度,或者找到可讀性適合於某一特定群體的文本,這屬於文本簡化的體系。
• 情感分析,辨析出說話人或者作者在關於某一個主題或者全文的情感或者態度。
• 健康相關的分析,用社交媒體來監管大眾的健康問題。