交叉熵
交叉熵
交叉熵(Cross Entropy)是Shannon資訊理論中一個重要概念,主要用於度量兩個概率分佈間的差異性信息。語言模型的性能通常用交叉熵和複雜度(perplexity)來衡量。交叉熵的意義是用該模型對文本識別的難度,或者從壓縮的角度來看,每個詞平均要用幾個位來編碼。複雜度的意義是用該模型表示這一文本平均的分支數,其倒數可視為每個詞的平均概率。平滑是指對沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。通常使用的平滑技術有圖靈估計、刪除插值平滑、Katz平滑和Kneser-Ney平滑。
語言模型的性能通常用交叉熵和複雜度(perplexity)來衡量。交叉熵的意義是用該模型對文本識別的難度,或者從壓縮的角度來看,每個詞平均要用幾個位來編碼。複雜度的意義是用該模型表示這一文本平均的分支數,其倒數可視為每個詞的平均概率。平滑是指對沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。通常使用的平滑技術有圖靈估計、刪除插值平滑、Katz平滑和Kneser-Ney平滑。
歧義問題的描述和消除問題是制約計算語言學發展的瓶頸問題.將交叉熵引入計算語言學消岐領域.採用語句的真實語義作為交叉熵的訓練集的先驗信息,將機器翻譯的語義作為測試集后驗信息。計算兩者的交叉熵,並以交叉熵指導對歧義的辨識和消除.實例表明,該方法簡潔有效.易於計算機白適應實現.交叉熵不失為計算語言學消岐的一種較為有效的工具.
參見:語音識別的維_基條目