言語識別

言語識別

機器自動識別言語的專門用語。這裡的言語指話音,不是指書面語言,機器指電子計算機或由它構成的系統。言語識別的研究內容極其豐富。從話音的發音情況和所要識別的單位看,可以分成兩大類:單呼言語的識別和連呼言語的識別。從機器是否要預先訓練來看,又可分為專人言語識別和通用言語識別。從機器聽從話音的指揮角度來看,又有語言理解的專門系統等等。

分類


單呼言語識別
發音時每發一次識別單位(單字、詞、片語或短語、語句),必須停頓一下,停頓時間一般要求100~150毫秒,而每個單位(例如短句)內部不允許短於 100毫秒。例如,口呼地名的識別,一個地名與另一個地名之間要求隔開 100毫秒以上,但是在一個地名內部不得超過 100毫秒的間隙,一個地名作為一個單位來識別,而並不識別一個地名由哪些字音構成。
連呼言語識別
發音人一口氣說了一些話,字音之間不存在間隙,而是連續發音,要求機器識別話中每一個字。例如說“北京”這兩個字音, 要求機器識別"北"與"京"兩個字。這就存在著音節切分的問題。要將"北”與“京”兩個音的分界點找出來,可根據第二字的輔音來判斷;但如果第二字的輔音是濁音或是零聲母,切分就非常困難。
專人言語識別
機器要求發音人首先把所用的字表念一遍或幾遍,以適應這個發音人的特點,識別這個專門人的話音。當換一個人發音時,一般識別精度會明顯下降。
通用言語識別
不用訓練,機器即能識別很多人在一定範圍內的話音。不用訓練,指不需要適應專門人的臨時訓練。國外發表的一些實驗結果,雖然能夠與專人言語識別系統的結果相比擬,但是在計算機里存放的信息遠較專人言語識別系統多。
語言理解系統
發音人說話后,計算機能懂其意思,並能分析關鍵字的含義,而不必逐字逐句地識別,這叫做語言理解系統。
發音人的識別與驗證
從話音來識別發音人,稱發音人的識別。發音人的驗證是讓機器對話音及發音人作出是與否的判定。

工作原理


①模式匹配法的識別
以專人單呼言語識別系統為例,最常見的是“模式匹配法”。假定要求計算機能識別100個口呼中國地名(“北京”、“上海”、……),用戶就得按照 100個地名表,逐個訓練計算機──呼一遍或幾遍,計算機在它的存貯器里建立參考模式,每個地名有一個或幾個參考模式,用戶可以隨便呼出地名表中的任何一個地名, 計算機將新呼進來的語音模式(參數)與存好的參數模式,逐個地進行比較,算好未知語音模式與每個參考模式的距離(或相似性),根據這個距離表,找出距離最小者(或相似性最好者)所對應的參考模式,從而判定發音人發的是哪個地名。構成模式的參數,一般用短時頻譜數據。分析語音的短時頻譜,可以用軟體對經過模/數轉換後進入計算機的數字式語言波來完成,也可以用專門的硬體──濾波器──組(模擬的或數字式的)來分析,這稱為前置分析。(圖1)
②特徵提取法的識別
應用提取語音的聲學特徵來識別語言,與模式匹配法不同。這種系統較為複雜,它需要對語音的參數和變數進行大量而細緻的研究,一般要對每一個語音特徵作出最優比較選擇,排除無關的數據,把那些似同實異的音區別開來。事實上擇優辦法也是兩種方法的合用。首先在音素方面要有顯著的層次,例如蜂音與噝音(濁音與清音),送氣與不送氣,音節切分,聲調模式等;其次用模式匹配法來識別一系列音素構成的模式。對於採用多大的語音單位,有人認為以音節或更大一些的語音單位來識別,比把音節分割成若干音素更為合理。目前,用這種方法識別比模式匹配法誤識率大。特徵提取法識別系統已有很多,這裡介紹一種APEL(聲學 -語音學單元)提取特徵系統的框圖作為代表。(圖2)

發展水平


專人單呼言語識別已達到實用階段,國際市場上已有十多個商品,從簡單的用幾條口令的聲控玩具到用上百條口令的電話訂票系統。國外水平高一點的均採用動態規劃的辦法進行時域方面的伸縮匹配。國內中國科學院聲學研究所的言語識別組採用非線性時域規正的辦法,將每一個言語圖樣規正為同樣大小的圖樣,匹配比較時,只需一時一地進行比較,避免了動態規劃技術耗時長,難以在計算機上進行實時識別的問題。連呼言語識別在國外的實驗室里正進行著大量的研究。目前國外的個別商品據說能識別連呼言語,但與實用尚有距離。
就目前人們所掌握的技能來說,下列項目已經完全能夠實現聲控:如自動分檢郵包,機器人的動作,傳輸帶上的產品檢驗,話控鎖,數據輸入並算帳,一定範圍的編輯系統,軍事指揮命令的下達,航天器上的儀器操作,生產線上的控制等等,言語識別的研究成果還將深入到家庭,如聲控開門、關門、拉窗帘、電視開關選台、電話撥號、家用機器傭人等等。

參考書目


S.R.Hyde, Automɑtic Speech Recoɡnition:A Cri-ticɑl Survey ɑnd Discussion of the Literɑture,E.E.David,Jr.(ed.),Human
Communication:A Unified View,McGraw-Hill Book Co.,New York,1972.
D.R. Reddy (ed.), Speech Recoɡnition, AcademicPress,New York,1975.