N-Gram

N-Gram

N-Gram是大辭彙連續語音識別中常用的一種語言模型,對中文而言,我們稱之為漢語語言模型(CLM, Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配信息,可以實現到漢字的自動轉換,

基本介紹


漢語語言模型利用上下文中相鄰詞間的搭配信息,在需要把連續無空格的拼音、筆劃,或代表字母或筆劃的數字,轉換成漢字串(即句子)時,可以計算出具有最大概率的句子,從而實現到漢字的自動轉換,無需用戶手動選擇,避開了許多漢字對應一個相同的拼音(或筆劃串,或數字串)的重碼問題。
該模型基於這樣一種假設,第N個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。