語音識別系統
語音識別系統
語音識別系統的應用可以分為兩個發展方向:一個方向是大辭彙量連續語音識別系統,主要應用於計算機的聽寫機,以及與電話網或者網際網路相結合的語音信息查詢服務系統,這些系統都是在計算機平台上實現的。
另外一個重要的發展方向是小型化、攜帶型語音產品的應用,如無線手機上的撥號、汽車設備的語音控制、智能玩具、家電遙控等方面的應用,這些應用系統大都使用專門的第三方軟體來實現,特別是近幾年來迅速發展的語音信號處理專用晶元(Application Specific Integrated Circuit,ASIC)和語音識別片上系統(System on Chip,SOC)的出現。
早在計算機發明之前,自動語音識別的設想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的"Radio Rex"玩具狗可能是最早的語 音識別器,當這隻狗的名字被呼喚的時候,它就能夠從底座上彈出來。最早的基於電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的共振峰。該系統得到了98%的正確率。。到1950年代末,倫敦學院(Colledge of London)的Denes已經將語法概率加入語音識別中。
1960年代,人工神經網路被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC),及動態時間彎折Dynamic Time Warp技術。
語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數學推理,經過Labiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基於隱馬爾科夫模型的大辭彙量語音識別系統Sphinx。。此後嚴格來說語音識別技術並沒有脫離HMM框架。
儘管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持不限領域,不限說話人的聽寫機應用。
特別是在中、高檔行動電話上,現已普遍的具有語音撥號的功能。隨著語音識別晶元的價格降低,普通電話上也將具備語音撥號的功能。
由於在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的衛星導航定位系統(GPS)的操作,汽車空調、照明以及音響等設備的操作,同樣也可以由語音來方便的控制。
當操作人員的眼或手已經被佔用的情況下,在增加控制操作時,最好的辦法就是增加人與機器的語音交互界面。由語音對機器發出命令,機器用語音做出應答。
語音識別系統的構成
通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發出命令,讓其完成一些簡單的任務,甚至可以製造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在於降低語音晶元的價格。
用語音可以控制電視機、VCD、空調、電扇、窗帘的操作,而且一個遙控器就可以把家中的電器皆用語音控起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
除了上文中所提到的應用以外,語音識別專用晶元在其他方面的應用可以說是不勝枚舉。隨著語音識別專用晶元的技術不斷提高,將給人們帶來極大的方便。
對比語音識別技術的兩個發展方向,由於基於不同的運算平台,因此具有不同的特點。大辭彙量連續語音識別系統一般都是基於PC機平台,而語音識別專用晶元的中心運算處理器則只是一片低功耗、低價位的智能晶元,與一台甚至多台PC機相比起來,其運算速度,存儲容量都非常有限,因而這些由專用晶元實現的語音識別系統有如下幾個特點:
1、多為中、小辭彙量的語音識別系統,即只能夠識別10~100詞條。只有近一兩年來,才有連續數碼或連續字母語音識別專用晶元實現。
2、一般僅限於特定人語音識別的實現,即需要讓使用者對所識別的詞條先進行學習或訓練這一類識別功能對語種、方言和詞條沒有限制。有的晶元也能夠實現非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入晶元,用戶使用時不需要再進行學習而直接應用。但這一類識別功能只適用於規定的語種和方言,而且所識別的語句只限於預先已訓練好的語句。
3、由此晶元組成一個完整的語音識別系統。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。
4、多為實時系統,即當用戶說完待識別的詞條后,系統立即完成識別功能並有所回應,這就對電路的運算速度有較高的要求。
5、除了要求有儘可能好的識別性能外,還要求體積儘可能小、可靠性高、耗電省、價錢低等特點。