聲紋識別
聲紋識別
聲紋識別,生物識別技術的一種,也稱為說話人識別,包括說話人辨認和說話人確認。聲紋識別就是把聲信號轉換成電信號,再用計算機進行識別。不同的任務和應用會使用不同的聲紋識別技術,如縮小刑偵範圍時可能需要辨認技術,而銀行交易時則需要確認技術。
所謂聲紋(Voiceprint),是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。人類語言的產生是人體語言中樞與發音器官之間一個複雜的生理物理過程,人在講話時使用的發聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。每個人的語音聲學特徵既有相對穩定性,又有變異性,不是絕對的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環境干擾有關。儘管如此,由於每個人的發音器官都不盡相同,因此在一般情況下,人們仍能區別不同的人的聲音或判斷是否是同一人的聲音。
聲紋識別的應用有一些缺點,比如同一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風和通道對識別性能有影響;比如環境噪音對識別有干擾;又比如混合說話人的情形下人的聲紋特徵不易提取;……等等。儘管如此,與其他生物特徵相比,聲紋識別的應用有一些特殊的優勢:(1)蘊含聲紋特徵的語音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;(2)獲取語音的識別成本低廉,使用簡單,一個麥克風即可,在使用通訊設備時更無需額外的錄音設備;(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通過網路(通訊網路或網際網路路)實現遠程登錄;(4)聲紋辨認和確認的演演算法複雜度低;(5)配合一些其他措施,如通過語音識別進行內容鑒別等,可以提高準確率;……等等。這些優勢使得聲紋識別的應用越來越受到系統開發者和用戶青睞,聲紋識別的世界市場佔有率15.8%,僅次於指紋和掌紋的生物特徵識別,並有不斷上升的趨勢。
聲紋識別(Voiceprint Recognition, VPR),也稱為說話人識別(Speaker Recognition),有兩類,即說話人辨認(Speaker Identification)和說話人確認(Speaker Verification)。前者用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;而後者用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。不管是辨認還是確認,都需要先對說話人的聲紋進行建模,這就是所謂的“訓練”或“學習”過程。
從另一方面,聲紋識別有文本相關的(Text-Dependent)和文本無關的(Text-Independent)兩種。與文本有關的聲紋識別系統要求用戶按照規定的內容發音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規定的內容發音,因此可以達到較好的識別效果,但系統需要用戶配合,如果用戶的發音與規定的內容不符合,則無法正確識別該用戶。而與文本無關的識別系統則不規定說話人的發音內容,模型建立相對困難,但用戶使用方便,可應用範圍較寬。根據特定的任務和應用,兩種是有不同的應用範圍的。比如,在銀行交易時可以使用文本相關的聲紋識別,因為用戶自己進行交易時是願意配合的;而在刑偵或偵聽應用中則無法使用文本相關的聲紋識別,因為你無法要求犯罪嫌疑人或被偵聽的人配合。
在對說話的人辨認方面,根據待識別的說話人是否在註冊的說話人集合內,說話人辨認可以分為開集(open-set)辨認和閉集(close-set)辨認。前者假定待識別說話人可以在集合外,而後者假定待識別說話人在集合內。顯然,閉集辨認需要有一個對集外說話人的“拒識問題”,而且閉集辨認的結果要好於開集辨認結果。本質上講,說話人確認和開集說話人辨認都需要用到拒識技術,為了達到很好的拒識效果,通常需要訓練一個假冒者模型或背景模型,以便拒識時有可資比較的對象,閾值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識別的性能。一個好的背景模型,往往需要通過預先採集好的若干說話人的數據,通過某種演演算法去建立。
如果技術達到一定的水平,可以把文本相關識別併入文本無關識別,把閉集辨認併入開集辨認,從而提供更為方便的使用方法。
聲紋識別可以說有兩個關鍵問題,一是特徵提取,二是模式匹配(模式識別)。
特徵提取的任務是提取並選擇對說話人的聲紋具有可分性強、穩定性高等特性的聲學或語言特徵。與語音識別不同,聲紋識別的特徵必須是“個性化”特徵,而說話人識別的特徵對說話人來講必須是“共性特徵”。雖然大部分聲紋識別系統用的都是聲學層面的特徵,但是表徵一個人特點的特徵應該是多層面的,包括:(1)與人類的發音機制的解剖學結構有關的聲學特徵(如頻譜、倒頻譜、共振峰、基音、反射係數等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;(2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發音、言語習慣等;(3)個人特點或受父母影響的韻律、節奏、速度、語調、音量等特徵。從利用數學方法可以建模的角度出發,聲紋自動識別模型可以使用的特徵包括:(1)聲學特徵(倒頻譜);(2)詞法特徵(說話人相關的詞n-gram,音素n-gram);(3)韻律特徵(利用n-gram描述的基音和能量“姿勢”);(4)語種、方言和口音信息;(5)通道信息(使用何種通道);等等。
根據不同的任務需求,聲紋識別還面臨一個特徵選擇或特徵選用的問題。例如,對“通道”信息,在刑偵應用上,希望不用,也就是說希望弱化通道對說話人識別的影響,因為我們希望不管說話人用什麼通道系統它都可以辨認出來;而在銀行交易上,希望用通道信息,即希望通道對說話人識別有較大影響,從而可以剔除錄音、模仿等帶來的影響。
總之,較好的特徵,應該能夠有效地區分不同的說話人,但又能在同一說話人語音發生變化時保持相對的穩定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能;……。當然,這些問題也可以通過模型方法去解決。
對於模式識別,有以下幾大類方法:
(1)模板匹配方法:利用動態時間彎折(DTW)以對準訓練和測試特徵序列,主要用於固定片語的應用(通常為文本相關任務);
(2)最近鄰方法:訓練時保留所有特徵矢量,識別時對每個矢量都找到訓練矢量中最近的K個,據此進行識別,通常模型存儲和相似計算的量都很大;
(3)神經網路方法:有很多種形式,如多層感知、徑向基函數(RBF)等,可以顯式訓練以區分說話人和其背景說話人,其訓練量很大,且模型的可推廣性不好;
(4)隱式馬爾可夫模型(HMM)方法:通常使用單狀態的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
(5)VQ聚類方法(如LBG):效果比較好,演演算法複雜度也不高,和HMM方法配合起來更可以收到更好的效果;
(6)多項式分類器方法:有較高的精度,但模型存儲和計算量都比較大;
(7)……
聲紋識別需要解決的關鍵問題還有很多,諸如:短話音問題,能否用很短的語音進行模型訓練,而且用很短的時間進行識別,這主要是聲音不易獲取的應用所需求的;聲音模仿(或放錄音)問題,要有效地區分開模仿聲音(錄音)和真正的聲音;多說話人情況下目標說話人的有效檢出;消除或減弱聲音變化(不同語言、內容、方式、身體狀況、時間、年齡等)帶來的影響;消除通道差異和背景噪音帶來的影響;……此時需要用到其他一些技術來輔助完成,如去噪、自適應等技術。
對說話人確認,還面臨一個兩難選擇問題。通常,表徵說話人確認系統性能的兩個重要參數是錯誤拒絕率(False Rejection Rate, FRR)和錯誤接受率(False Acceptation Rate, FAR),前者是拒絕真正說話人而造成的錯誤,後者是接受集外說話人而造成的錯誤,二者與閾值的設定相關,兩者相等的值稱為等錯率(Equal Error Rate, EER)。在現有的技術水平下,兩者無法同時達到最小,需要調整閾值來滿足不同應用的需求,比如在需要“易用性”的情況下,可以讓錯誤拒絕率低一些,此時錯誤接受率會增加,從而安全性降低;在對“安全性”要求高的情況下,可以讓錯誤接受率低一些,此時錯誤拒絕率會增加,從而易用性降低。前者可以概括為“寧錯勿漏”,而後者可以“寧漏勿錯”。我們把真正閾值的調整稱為“操作點”調整。好的系統應該允許對操作點的自由調整。
聲紋識別可以應用的範圍很寬,可以說聲紋識別幾乎可以應用到人們日常生活的各個角落。比如下面舉幾個例子。
(1)信息領域。比如在自動總機系統中,把身份證之聲紋辨認和關鍵詞檢出器結合起來,可以在姓名自動撥號的同時向受話方提供主叫方的身份信息。前者用於身份認證,後者用於內容認證。同樣,聲紋識別技術可以在呼叫中心(Call Center)應用中為註冊的常客戶提供友好的個性化服務。
(2)銀行、證券。鑒於密碼的安全性不高,可以用聲紋識別技術對電話銀行、遠程炒股等業務中的用戶身份進行確認,為了提供安全性,還可以採取一些其他措施,如密碼和聲紋雙保險,如隨機提示文本用文本相關的聲紋識別技術進行身份確認(隨機提示文本保證無法用事先錄好的音去假冒),甚至可以把交易時的聲音錄下來以備查詢。
(3)公安司法。對於各種電話勒索、綁架、電話人身攻擊等案件,聲紋辨認技術可以在一段錄音中查找出嫌疑人或縮小偵察範圍;聲紋確認技術還可以在法庭上提供身份確認(同一性鑒定)的旁證。在監獄親情電話應用中,通過採集犯人家屬的聲紋信息,可有效鑒別家屬身份的合法性。在司法社區矯正應用中,通過識別定位手機位置和呼叫對象說話聲音的個人特徵,系統就可以快速的自動判斷被監控人是否在規定的時間出現在規定的場所,有效地解決人機分離問題。
(4)軍隊和國防。聲紋辨認技術可以察覺電話交談過程中是否有關鍵說話人出現,繼而對交談的內容進行跟蹤(戰場環境監聽);在通過電話發出軍事指令時,可以對發出命令的人的身份進行確認(敵我指戰員鑒別)。該技術在國外軍事方面已經有所應用,據報道,迫降在我國海南機場的美軍EP-3偵察機中就載有類似的聲紋識別偵聽模塊。
(5)保安和證件防偽。如機密場所的門禁系統。又如聲紋識別確認可用於信用卡、銀行自動取款機、門、車的鑰匙卡、授權使用的電腦、聲紋鎖以及特殊通道口的身份卡,把聲紋存在卡上,在需要時,持卡者只要將卡插入專用機的插口上,通過一個傳聲器讀出事先已儲存的暗碼,同時儀器接收持卡者發出的聲音,然後進行分析比較,從而完成身份確認。同樣可以把含有某人聲紋特徵的晶元嵌入到證件之中,通過上面所述的過程完成證件防偽。
社保社會化以後,因為就業單位的搬遷、變更、關閉,退休人員異地養老等原因,造成投保人員頻繁流動、分散。所以確定投保人的生存狀況一直是社保支付理賠工作中的一個難題,全國各地陸續出現了社保基金被冒領的現象,尤其是養老保險金被冒領的情況更為嚴重;解決這一難題的出路在於採用生物識別技術進行身份認證,而語音生物特徵(聲紋)識別是唯一可用於非接觸式、通過電話網路遠程安全控制的生物識別方法。
語音生物特徵識別,又稱說話人識別,俗稱聲紋識別,是根據說話人的發音生理和行為特徵,自動識別說話人身份的一種生物識別方法。聲紋識別所提供的安全性可與其他生物識別技術(如:指紋、掌形和虹膜)相媲美,而且語音採集裝置造價低廉,只需電話/手機或麥克風即可,無需特殊的設備;它與說話語言無關,與方言腔調無關,不涉及隱私問題,適應人群範圍很廣;聲音信號便於遠程傳輸和獲取,在基於電信和網路的身份識別應用中,聲紋識別更為擅長,得天獨厚。
養老金能否被冒領的關鍵問題之一就是:能否快速安全準確地遠程識別和確認社保對象的身份;只要能通過某種簡單方便且安全可靠的手段確保身份合法,就可以基本杜絕養老金被非法領取的現象。類似於人類的指紋和DNA,聲紋也是人體獨特的個性生物特徵,很難找到兩個聲紋完全一樣的人。如果能夠預先採集到養老金領取人的聲音樣本,從中抽取出聲紋識別“基因”序列,然後在定期的資格認證時,將領取人的聲紋與聲紋庫中的聲紋進行比對確認,就能夠輕易地判斷領取人是否合法。對於極少量的聾啞人群等特殊人群,再輔以人工檢查手段確認。這樣兩者結合起來,不僅將大幅度降低冒領的可能性,而且極大地提供社保服務機構的工作效率。
聲紋識別的主要任務包括:語音信號處理、聲紋特徵提取、聲紋建模、聲紋比對、判別決策等。社保服務對象的聲紋身份認證,分為兩個階段:一是聲紋註冊階段:可能在社區工作人員的現場監督下,社保服務對象採用電話語音交互應答的方式向系統輸入註冊語音樣本,系統利用從註冊語音中提取的聲紋特徵序列,為用戶構建聲紋模型;二是聲紋認證階段:社保服務對象通常會被要求定期地做資格認證,那麼他/她可以隨時隨地通過移動/電話直接撥打社保服務熱線,在遠端系統的語音提示下,在線應答說話,系統自動地錄取用戶的語音,開展聲紋識別身份認證;另外,系統可以根據電話用戶語音身份認證的狀況,適當地更新或者調整用戶的聲紋模型。
整個系統的物理結構如圖所示,主要由三大部分組成:
電話通信終端:主要由養老金領取人使用,通過移動/電話進行遠程非接觸式聲紋認證;
電腦操控終端:主要由社保管理機構的工作人員使用,通過它可以查詢每期的聲紋認證結果,維護用戶信息和聲紋資料庫,對於已經不具備養老金髮放資格的人員辦理停止發放手續等;
伺服器端:主要包括聲紋識別伺服器、語音識別伺服器和web伺服器。其中,聲紋識別伺服器是一個融合多種技術的伺服器,它由一系列分工協作的服務子系統構成,包括:電話語音交互應答、聲紋自動識別、應用信息查詢和資料庫等系統。語音識別伺服器,有語音合成、語音識別等子系統構成。web伺服器主要是提供對受保人員的語音數據、聲紋數據以及驗證記錄的管理功能。
採用這種高科技手段來開展社保身份認證與管理,只需要在社保機構的總部安裝一套社保伺服器系統,在社保經辦機構安裝有普通的PC機,連接普通電話線或者ISDN數字專線即可工作,客戶端則僅需要一台普通的固定電話或者行動電話,使用操作簡單,認證準確安全可靠。
為進一步加強社會養老保險資金的管理與監督,防止養老基金流失,人社局推出一系列的生存認證新方案。其中,基於聲紋識別的社保身份認證受到極大程度的關注。
中國人民銀行日前正式對外發布《移動金融基於聲紋識別的安全應用技術規範》金融行業標準,這意味著聲紋識別技術得到金融監管部門的認可。這也為聲紋識別技術進入移動金融領域解決了標準難題。