語音編碼

語音編碼，就是對模擬的語音信號進行編碼。

1概述編碼的重要性編碼速率

2編碼的分類波形編碼參數編碼

混合編碼(Hybrid coding) 語音編碼的極限速率 3語音信號壓縮編碼的評價系統主觀評價方法

客觀評價方法

概述

編碼的重要性

編碼、傳輸、存儲解碼語傳輸存儲必程。

隨語技術展，壓縮語號傳輸寬，降低傳輸速率，追求標。語編碼標程擔角。

語編碼達語號。

編碼速率

用比特/秒（b/s或bps）來度量，用I表示，

I=R • fs ,R代表每個語音採樣值編碼所需的比特數；fs是採樣頻率。

當fs=8kHz，每個採樣值用8比特位來編碼，則編碼速率為64kb/s。

編碼的分類

語音編碼就是對模擬的語音信號進行編碼，將模擬信號轉化成數字信號，從而降低傳輸碼率並進行數字傳輸，語音編碼的基本方法可分為波形編碼、參量編碼（音源編碼）和混合編碼，波形編碼是將時域的模擬話音的波形信號經過取樣、量化、編碼而形成的數字話音信號，參量編碼是基於人類語言的發音機理，找出表徵語音的特徵參量，對特徵參量進行編碼，混合編解碼是結合波形編解碼和參量編解碼之間的優點。波形編解碼器雖然可提供高話音的質量，但數據率低於16 kb/s的情況下，在技術上還沒有解決音質的問題。

波形編碼

基本原理是在時間軸上對模擬話音信號按照一定的速率來抽樣，然後將幅度樣本分層量化，並使用代碼來表示。在接收端將收到的數字序列經過解碼恢復到原模擬信號，保持原始語音的波形形狀。話音質量高，編碼速率高。如PCM編碼類（a率或u率PCM、ADPCM 、ADM)，編碼速率為64－16kb/s，語音質量好。

參數編碼

根據語音信號產生的數學模型，通過對語音信號特徵參數的提取後進行編碼（將特徵參數變換成數字代碼進行傳輸）。在接收端將特徵參數，結合數學模型，恢復語音，力圖使重建語音保持儘可能高的可懂度，重建語音信號的波形同原始語音信號的波形可能會有相當大的區別。如線性預測（LPC）編碼類。編碼速率低，2.4-1.2kb/s，自然度低，對環境雜訊敏感。

混合編碼(Hybrid coding)

將波形編碼與參數編碼相結合，在2.4-1.2kb/s速率上能夠得到高質量的合成語音。混合編碼包括若干語音特徵參量又包括部分波形編碼信息，以達到波形編碼的高質量和參量編碼的低速率的優點。

語音編碼的極限速率

語音中最基本的元素是音素，大約有128～256個，如果按通常的說話速度，每秒平均發出10個音素，則信息率為： I=[log2(256)10]bps=80bps

把發音看成是以語音速率來傳送，則語音編碼的極限速率為80bps,從數字化標準的編碼速率64kbps，到極限速率80bps，之間的距離，對於理論研究和實踐有著極大的吸引力。

語音信號壓縮編碼的評價系統

語音質量是衡量語音編碼演演算法優劣的關鍵性能之一。語音質量通常分為四類：

（1）廣播級：寬頻(0-7000Hz)高質量的語音，感覺不出雜訊存在

（2）網路或電話級：200Hz-3200Hz,信噪比大於30db。

（3）通信級：完全可以聽懂，但和長途電話相比，有明顯失真。

（4）合成級：80%-90%可懂度，音質較差，聽起來像機器講話，失去了講話者的個人特徵。

語音質量有主觀和客觀兩種評價方法

主觀評價方法

評價指標：清晰度或可懂度、音質。前者是指語音是否容易聽清楚；後者指語音聽起來有多自然。

（1）可懂度評價 DRT：Diagnostic Rhymer Test

（2）音質評價：

MOS：Mean Opinion Score 平均意見得分

DAM：Diagnostic Acceptability Measure 判斷滿意度得分。

MOS得分為五級：優、良、可、差和壞。滿分為5分，相當調頻廣播質量；4分以上是長途電話網標準；3.5分為通信標準； 3.0分仍有較好的可懂度，保持自然度；2.5分只維持可懂度，是戰術通信標準。

客觀評價方法

（1）波形失真度，用信噪比來度量

語音編碼

（2）頻譜失真測量

（3）譜包絡失真測量

語音編碼

語音編碼

概述

編碼的重要性

編碼速率

編碼的分類

波形編碼

參數編碼

混合編碼(Hybrid coding)

語音編碼的極限速率

語音信號壓縮編碼的評價系統

主觀評價方法

客觀評價方法

基本信息