word分詞

word分詞

Java分散式中文分片語件 - word分詞

目錄

正文


word分詞是一個Java實現的分散式的中文分片語件,提供了多種基於詞典的分詞演演算法,並利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置文件來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分散式環境,能靈活指定多種分詞演演算法,能使用refine功能靈活控制分詞結果,還能使用詞性標註、同義標註、反義標註、拼音標註等功能。同時還無縫和LuceneSolrElasticSearchLuke集成。