基音周期
基音周期
基音周期是一種用於記錄基音的時間長度的檢測方法,屬於聲音學。基音周期是聲帶每開啟和閉合一次的時間。
語音是語言的聲學表現,語言是人類交流信息最自然、最有效、最方便的手段。在高度信息化的今天,用現代手段研究語音處理技術,使人們能更加有效地產生、傳輸、存儲、獲取和應用語音信息,這對於促進社會的發展具有十分重要的意義。
語音處理的研究目標多種多樣,所涉及的學科門類也是豐富多彩的,其中包括了語音和語言學、聲學、心理學、認知科學、計算機、數理統計、信號處理、人工智慧和模式識別等等,並且它始終與當前信息科學中最活躍的前沿學科,如神經網路理論、小波變換理論、模糊集理論、時頻分佈理論和混沌與分形理論等保持密切聯繫並共同發展著。語音處理研究者常常從這些領域的進展中找到突破口,使語音處理技術研究取得突破性的進展,其研究成果具有重要的學術及應用價值。語音信號處理主要包括語音識別、語音合成、語音壓縮編碼和語音增強等分支。
語音識別技術是指計算機系統能夠根據輸入的語音識別出其代表的具體意義,進而完成相應的功能。一般的方法是事先讓用戶朗讀有一定數量文字、符號的文檔,通過錄音裝置輸入、存儲到計算機,作為聲音樣本。以後,當用戶通過語音識別系統操作計算機時,用戶的聲音通過轉換裝置進入計算機內部,語音識別技術便將用戶輸入的聲音與事先存儲好的聲音樣本進行對比。系統根據對比結果,輸入一個它認為最“象”的聲音樣本序號,就可以知道用戶剛才念的聲音是什麼意義,進而執行此命令。因此通過語音識別技術,計算機可以“聽”懂人類的語言。
語音合成是人機語聲的一個重要組成部分,語音合成技術賦予機器“人工嘴巴”的功能,即解決讓機器說話問題。是將計算機自己產生的或外部輸入的文字信息,比如文本文件內容、WORD文件內容等文字信息,按語音處理規則轉換成語音信號輸出,即使計算機流利地讀出文字信息,使人們通過“聽”就可以明白信息的內容。也就是說,使計算機具有了“說”的能力,能夠將信息“讀”給人類聽。這種將文字轉換成語音的技術稱之為文語轉換技術,簡稱TTS( Text to Speech)技術,也稱為語音合成技術。
語音編碼就是將模擬語音信號數字化,數字化之後可以作為數字信號傳輸、存儲或處理,可以充分利用數字信號處理的各種技術。為了減小存儲空間或降低傳輸比特率節省帶寬,還需要對數字化之後的語音信號進行壓縮編碼,這就是語音壓縮編碼技術。語音壓縮編碼的目的就是用儘可能低的數碼率獲得儘可能好的合成語音質量,同時又要使編碼過程的計算代價儘可能小。語音壓縮編碼技術在移動通信、衛星通信、多媒體技術以及IP電話通信中得到普遍應用,起著舉足輕重的作用。
語音增強就是從帶噪語音中提取純凈語音,也即語音消噪。語音增強主要應用範圍是降低聽覺雜訊、識別系統的預處理和線性預測編碼的預處理,這種技術對於語音識別和說話人識別是十分重要的。
語音信號分析是語音信號處理的前提和基礎,只有分析出可表徵語音信號本質特徵的參數,才有可能利用這些參數進行高效的語音合成、語音識別、語音壓縮編碼等處理,其中基音周期是最重要的語音信號的特徵參數之一。
人在發濁音時,氣流通過聲門使聲帶產生張馳振蕩式振動,產生一股准周期脈衝氣流,這一氣流激勵聲道就產生濁音,又稱有聲語音,它攜帶著語音中的大部分能量。這種聲帶振動的頻率稱為基頻,相應的周期就稱為基音周期(Pitch),它由聲帶逐漸開啟到面積最大(約佔基音周期的50%)、逐漸關閉到完全閉合(約佔基音周期的35%)、完全閉合(約佔基音周期的15%)三部分組成。
基音周期的估計稱為基音檢測(Pitch Detection),基音檢測的最終目標是畫出和聲帶振動頻率完全一致的基音周期變化軌跡曲線,如不可能則盡量找出相吻合的軌跡曲線。
在語音信號處理中,語音信號參數提取的準確性非常重要。只有獲得準確的參數,才能利用這些參數進行高效的處理,而在許多參數提取中,基音周期的提取尤為重要,廣泛地應用於語音壓縮編碼、語音分析合成以及語音識別等方面,所以,準確可靠地估計並提取基音周期對語音信號處理至關重要。它直接影響到合成語音是否真實再現原始語音信號,影響到語音識別的識別率,影響到語音壓縮編碼的正確率。
由於聲道的易變性及聲道特徵因人而異,而基音的範圍又很寬,即使是同一個人在不同情態下發音的基音周期也不同,加之基音周期還受到單詞發音音調的影響,因而基音周期的精確檢測實際上是一件比較困難的事情,基音提取的主要困難反映在:
l)語音信號變化十分複雜,聲門激勵的波形並不是一個完全的周期序列。在語音的頭尾部並不具有聲帶振動那樣的周期性,對有些清濁音的過渡幀很難判定它屬於周期性還是非周期性,從而對估計基音周期帶來一定的影響。
2)從語音信號中去除聲道的影響,直接取出僅與聲帶振動有關的聲源信息並非易事。如聲道共振峰可能強烈改變聲門波形的結構,從而嚴重影響激勵信號的諧波結構,會給基音檢測造成困難。
3)語音信號是准周期的,且共振峰結構和雜訊有時會影響波峰和過零率,很難準確定位基音周期的開始和結束。
4)區分清音語音和低電平濁音段是導致基音檢測困難的另一個重要因素。在許多情況下,清音語音與低電平濁音段之間的過度段是非常細微的,確認它是極其困難的。
5)在實際應用中,背景雜訊強烈影響基音檢測的性能。
6)基音周期變化範圍較大,從低音男性的50Hz到高音女性或兒童的500Hz,接近三個倍頻程,這也給基音周期的檢測帶來了一定的困難。另外,濁音信號可能包括很多諧波分量,而基波分量往往不是最強的分量,這些諧波成分疊加在一起,使語音信號的波形變得很複雜,給基音檢測帶來困難,經常發生基頻估計結果比實際基音頻率大很多。
由於這些困難,儘管基音提取的方法很多,但迄今尚未找到一個完善的方法可以對各類人群(包括男人、女人、老人、小孩及不同語種)和各種環境條件情況下都能獲得滿意的檢測結果。
儘管基音周期檢測有許多困難,但因為它的重要性,基音周期檢測一直是一個研究的重要課題。為了從語音波形中準確地提取基音的工作,使全世界的科學家忙了幾十年,從20世紀60年代以來出現了很多種基音周期檢測方法,特別是在有噪環境下的語音信號的基音周期檢測方面更是提出了許多有效的方法。進行基音檢測方面早期研究工作的國家主要有美國等歐美國家,之後,我國在基音檢測方面,尤其是對漢語的基音檢測工作也取得了很大進展。
為了提高基音檢測的準確性,降低計算複雜度,人們已經從基於時間的檢測方法和非基於時間的檢測方法出發 ,開發了許多基音檢測演演算法。
按照是否基於時間分為:
1)非基於時間的基音周期檢測方法
非基於時間的方法一般都先將語音信號分為長度一定的語音幀,然後對每一幀語音求平均基音周期,相比基於時間的基音周期檢測方法來說,它的優點是比較簡單,主要應用於只需要平均基音周期作為參數的語音編解碼,語音識別。這些方法有:自相關函數法、平均幅度差函數法 和倒譜方法。
傳統的自相關函數法(ACF)是Ross等人於1977年提出的 ,自相關函數法的原理是周期信號的自相關函數將在時延等於函數周期的地方產生一個極大值,因此通過計算語音信號的自相關函數可以估計信號的基音。自相關函數方法適合於雜訊環境下,但單獨使用經常發生基頻估計結果為其實際基音頻率的二次倍頻或二次分頻的情況;
傳統的平均幅度差函數法(AMDF)是Ross等人於1974年提出的 ,平均幅度差函數法無需乘法運算,因而演演算法複雜度小。倒譜法是由Noll等人於1967年提出的 ,這種演演算法的優點是對純凈語音的基音檢測精度較高,可以較好地從語音信號中分離出基音信息和聲道信息,缺點是演演算法比較複雜。
平均幅度差法、倒譜法在靜音環境下或雜訊較小時都可以取得較好的檢測結果,但在語音環境較惡劣、信噪比較低時,檢測的結果下降較快,難以讓人滿意。基於此,本文提出了一種抗噪性很好的自相關能量函數(ACEF)和幅度差能量函數(MDEF)相結合的基音周期檢測演演算法,這種方法有效彌補了傳統基音周期檢測演演算法的缺點,它繼承了自相關函數的抗噪性能,抑制了自相關函數不必要的峰值,進一步加重了用於基音周期判斷的基音峰值點,提高了基音周期提取的準確性。
然而,由於非基於時間的基音周期檢測方法都是建立在語音信號在一幀內是短時平穩的基礎上的,因此,從本質上說,這些方法都無法檢測幀內的基音周期的非平穩變化,檢測精度不高,對於需要檢測出一幀內每一個基音峰值點的語音合成系統來說,無法得到很好的效果。於是需要能夠檢測出一幀內每一個基音峰值點的基於時間的基音周期檢測方法。
2)基於時間的基音周期檢測方法
相比非基於時間的基音周期檢測方法而言,基於時間的基音周期檢測方法並不多見,如:小波變換方法 和Hilbert-Huang變換方法,這兩種方法都具有跟蹤基音周期變化的能力,能將微小的周期變化檢測出來。
小波變換在時域和頻域都具有良好的局部性特性,它是一種信號的時間-尺度分析方法,具有多分辨分析的特點,能有效的從信號中提取信息。小波就像一種共軛鏡象濾波器,每一次變換,就是把信號分成高頻和低頻分量,如果對變換后的低頻分量再進行變換,得到的將是更為低頻的分量,逐次進行下去,就可以得到去除了高次諧波,保留了基頻的成分的低頻分量,這樣就得到近似於只有基頻成分的波形,因此可以在時域上得到所有的基音峰值點。
按照具體檢測方法
從具體檢測方法上來看,大致可以分為三類:
1)波形估計法。直接有聲音波形來估計基音周期,分析出波形上的周期峰值。包括并行處理法、數據減少法等。
3)變換法。將語音信號變換到頻域或者倒譜域來估計基音周期,利用同態分析方法將聲道的影響消除,得到屬於激勵部分的信息,進一步求取基音周期,比如倒譜法。雖然倒譜法分析演演算法比較複雜,但是基因周期估計效果好。