自動分詞

自動分詞

徠自動分詞是基於字元串匹配的原理進行的;所謂自動分詞方法,指的是漢字字元串匹配。主要有最大匹配法、逆向最大匹配法、逐詞遍歷匹配法、設立切分標誌法、正向最佳匹配法和逆向最佳匹配法等。

原理


自動分詞是基於字元串匹配的原理進行的;所謂自動分詞方法,指的是漢字字元串匹配
的進行方式。

分類


1. 最大匹配法 亦稱MM法;其基本思想是這樣的,假設自動分詞詞典(或詞庫)中的最
長詞條是i個字,則取被處理材料當前字元串序列中的前i個字作為匹配欄位,查找詞
典,若詞典中存在這樣的一個i字詞,則匹配成功,匹配欄位被作為一個詞切分出來;
如果在詞典中找不到這樣一個i字詞,則匹配失敗,匹配欄位去掉最後一個字,剩下的
欄位重新進行匹配,如此進行下去,直到匹配成功,也就是完成一輪匹配,切分出一個
詞為止。
這種分詞方法,在由北京航空學院等十多個單位協同進行的我國第一次大規模現代漢語
詞頻統計工作中,實現了我國第一個自動分詞系統CDWS。
2.逆向最大匹配法 亦稱OMM法,或RMM,IMM法;其基本原理和MM法相同,不同的是分
詞切分方向;它從被處理材料的末端開始匹配,每次取最末端的i個字作為匹配欄位,
匹配失敗則去掉徠最前面的一個字。OMM法要求配置逆序分詞詞典。
3. 逐詞遍歷匹配法,它把詞典中的詞按照由長到短遞減的順序逐個搜索匹配整個代處
理材料,直到把所有的詞都切分出來為止。
4. 設立切分標誌法,這種方法首先要收集那些標點符號(稱為自然切分標誌)以外的
眾多非自然切分標誌,例如,只充當詞首字或詞尾字的字,對這些非自然切分標誌進行
搜索,根據這些標誌,把句子切分為若干較短的欄位,然後再使用MM或者OMM等方法進
行進一步的切分。準確的說,這種方法並不是一種真正意義上的分詞方法,只不過是自
動分詞的一種前處理方式而已。而且,這種前處理並沒有提高分詞精確度,卻要額外消
耗時間掃描切分標誌,增加分詞的時間複雜度。
5. 正向最佳匹配法和逆向最佳匹配法 最佳匹配法的出發點,是在詞典中按詞頻的大
小排列詞條,以求縮短對分詞詞典的搜索時間,達到最佳效果,從而降低分詞的時間復
雜度,以加快分詞速度。實際上,這是對分詞詞典預先進行的一種加工,也不是純粹意
義上的一種分詞方法。