文本聚類

文本聚類（Text clustering）文檔聚類主要是依據著名的聚類假設：同類的文檔相似度較大，而不同類的文檔相似度較小。作為一種無監督的機器學習方法，聚類由於不需要訓練過程，以及不需要預先對文檔手工標註類別，因此具有一定的靈活性和較高的自動化處理能力，已經成為對文本信息進行有效地組織、摘要和導航的重要手段，為越來越多的研究人員所關注。

1相關應用 2相關演算法

相關演演算法

劃分法

(partitioning methods)：給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K模糊聚類演演算法中可以放寬）；對於給定的K，演演算法首先給出一個初始的分組方法，以後通過反覆迭代的方法改變分組，使得每一次改進之後的分組方案都較前一次好，而所謂好的標準就是：同一分組中的記錄越近越好，而不同分組中的紀錄越遠越好。使用這個基本思想的演演算法有：K-MEANS演演算法、K-MEDOIDS演演算法、CLARANS演演算法；

層次法

(hierarchical methods)：這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中，初始時每一個數據紀錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合併成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。代表演演算法有：BIRCH演演算法、CURE演演算法、CHAMELEON演演算法等；

基於密度的方法

（density-based methods):基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演演算法只能發現“類圓形”的聚類的缺點。這個方法的指導思想就是，只要一個區域中的點的密度大過某個閥值，就把它加到與之相近的聚類中去。代表演演算法有：DBSCAN演演算法、OPTICS演演算法、DENCLUE演演算法等；

基於網格的方法

(grid-based methods):這種方法首先將數據空間劃分成為有限個單元（cell）的網格結構，所有的處理都是以單個的單元為對象的。這麼處理的一個突出的優點就是處理速度很快，通常這是與目標資料庫中記錄的個數無關的，它只與把數據空間分為多少個單元有關。代表演演算法有：STING演演算法、CLIQUE演演算法、WAVE-CLUSTER演演算法；

基於模型的方法

(model-based methods):基於模型的方法給每一個聚類假定一個模型，然後去尋找一個能很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分佈函數或者其它。它的一個潛在的假定就是：目標數據集是由一系列的概率分佈所決定的。通常有兩種嘗試方向：統計的方案和神經網路的方案

文本聚類

文本聚類

相關應用

相關演演算法

基本信息