VAD
靜音抑制
語音活動檢測(Voice Activity Detection,VAD)又稱語音端點檢測,語音邊界檢測。目的是從聲音信號流里識別和消除長時間的靜音期,以達到在不降低業務質量的情況下節省話路資源的作用,它是IP電話應用的重要組成部分。靜音抑制可以節省寶貴的帶寬資源,可以有利於減少用戶感覺到的端到端的時延。
靜音抑制,又稱語音活動偵測。靜音抑制的目的是從聲音信號流里識別和消除長時間的靜音期。
用戶打電話時,並不是總在佔用通話通道。根據傳統電話業務的統計,一方用戶實際佔用通話通道的時間不會超過整個通話時間的40%。這主要包括以下幾個方面的原因:一是正在聽對方說話;二是由於思考,稍事休息等原因引起的一段話之間的停頓;三是說話中間的停頓,如猶豫,呼吸,口吃等。第一種情況下停頓間隙長而出現頻率低;第三種情況停頓間隙短而出現頻率高;第二種情況界於一、三種情況之間。語音源的這種特性叫做開關特性,有時也叫話音/靜默特性。
在用戶沒有講話時,就沒有語音分組的發送,從而可以進一步降低語音比特率。當用戶的語音信號能量低於一定門限值時就認為是靜默狀態,也不發送語音分組。當檢測到突發的活動聲音時才生成語音信號,並加以傳輸。運用這種技術能夠獲得大於50%的帶寬。
在進行靜音檢測時有兩個問題需要注意:一是背景雜訊問題,即如何在較大的背景雜訊中檢測靜音;二是前後沿剪切問題。所謂前後沿剪切就是還原語音時,由於從實際講話開始到檢測到語音之間有一定的判斷門限和時延,有時語音波形的開始和結束部分會作為靜音被丟掉,還原的語音會出現變化,因此需要在突發語音分組前面或後面增加一個語音分組進行平滑以解決這一問題。
在實際使用中,如果出現長時間的靜默,會使用戶感到很不自然。因此實際上接收端常常會在靜音期間發送一些分組,從而生成使用戶感覺舒服一些的背景雜訊,即所謂的舒適雜訊。