word分詞是一個Java實現的分散式的中文分片語件,提供了多種基於詞典的
分詞演演算法,並利用
ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等
未登錄詞。能通過自定義配置文件來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分散式環境,能靈活指定多種分詞演演算法,能使用refine功能靈活控制分詞結果,還能使用
詞性標註、同義標註、反義標註、拼音標註等功能。同時還無縫和
Lucene、
Solr、
ElasticSearch、
Luke集成。