N-Gram

N-Gram

N-Gram是大辭彙連續語音識別中常用的一種語言模型，對中文而言，我們稱之為漢語語言模型(CLM, Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配信息，可以實現到漢字的自動轉換，

目錄

基本介紹

漢語語言模型利用上下文中相鄰詞間的搭配信息，在需要把連續無空格的拼音、筆劃，或代表字母或筆劃的數字，轉換成漢字串(即句子)時，可以計算出具有最大概率的句子，從而實現到漢字的自動轉換，無需用戶手動選擇，避開了許多漢字對應一個相同的拼音(或筆劃串，或數字串)的重碼問題。

該模型基於這樣一種假設，第N個詞的出現只與前面N-1個詞相關，而與其它任何詞都不相關，整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

目錄