語音晶元
語音晶元
在當前科技發達的時代,集成電路是推動科技發展一個不可或缺的重要部件。語音晶元,顧名思義就是可以存儲控制播放語音的IC。
晶元()半導元件產品統稱。集(, )載,晶圓分割而成。
矽片塊硅,含集,腦設備。
集,泛指元器件,硅板集合元器件某功模塊。設備,承擔運算存儲功。集範圍覆蓋、乎設備。
語音晶元
什麼是語音晶元?
語音晶元定義:將語音信號通過採樣轉化為數字,存儲在IC的ROM中,再通過電路將ROM中的數字還原成語音信號。
根據語音晶元的輸出方式分為兩大類,一種是PWM輸出方式,一種是DAC輸出方式,PWM輸出音量不可連續可調,不能接普通功放,目前市面上大多數語音晶元是PWM輸出方式。另外一種是DAC經內部EQ放大,該語音晶元聲音連續可調,可數字控制調節,可外接功放。
普通語音晶元放音功能實質上是一個DAC過程,而ADC過程資料是由電腦完成,其中包括對語音信號的採樣、壓縮、EQ等處理。
錄音晶元包括ADC和DAC兩個過程,都是由晶元本身完成的,包括語音數據的採集、分析、壓縮、存儲、播放等步驟。
ADC=Analog Digital Change 模數轉換
DAC= Digital Analog Change 數模轉換
音質的優劣取決於ADC和DAC位數的多少。例如:20秒到 340秒,最低從10秒到340秒。語音晶元直觀的從名稱上來看,就是與語音有關的晶元,語音就是存儲的電子聲音,凡是能發出聲音的晶元,就是語音晶元,俗稱聲音晶元,英文準確些來說應該是Voice IC. 在語音晶元的大家庭中,根據聲音的類型不同可分為(Speech IC)和(Music IC)兩種。這兒應該算是語音晶元專業的區分方法.
語音晶元的生產方式
掩膜生產。掩膜生產通俗的說就是先將聲音燒到晶元里,然後再進行封裝,一般有量的要求。
otp生產。所謂otp的意思是指的一次性燒錄。先把晶元封裝好,再借用軟體燒進去聲音。
語音晶元有根據IC本身的物理結構的多個通道(同時發出多個通道的聲音)可分為多種類型:
一, 單通道的:
1, 單通道的語音IC(Speech IC)(這種語音晶元不支持音樂IC音樂存儲方式); 常見的語音IC是單通道的語音晶元,WTN和DKA010動物叫聲是最典型的單通道語音晶元,
2, 單通道的音樂IC(Music IC),同一單位時間內只能發出一種音樂的音樂IC, 電子聲音文件是只有一個通道的.Mid後綴文件.
常說的單音片,是一種最基本的音樂IC,由一定時間內音符輸出的多少,決定了單音片的效果,有64音符多,128音符等等. 單音片應用場合廣,價格極其低廉,最常見的有單音片有生日快樂賀卡單音片
嚴格的說,單通道的音樂IC和單音片的兩者結構是不相同的
二, 2通道:
1, 2通道的語音IC, 2通道和多通道的語音晶元,實際應用中語音播放時一般會按規定固定在某一通道內進行聲音的播放(等同於單通道),但是這類產品比單通道的語音IC(Speech ic)成本要高,價格會高些,語音晶元廠家在設計時為了平衡產品價格和應用,一般來說,功能支持和聲音效果方面都會做得更完美一些.
這種結構也許是因為產品和方案實際應用領域和價格所決定的, 語音晶元輸出一般都是單通道的聲音輸出,支持立體聲的產品很少, 要高端一些的產品就要選MP3主控晶元之類的方案了
2, 2通道的音樂晶元, 通俗叫法是雙音片(Music With Dual Tone IC),顧名思義,同一單位時間內二個通道都可以發出音樂的音樂IC. 電子聲音源文件一般為.Mid的二通道文件。常見的聖誕系列音樂IC
這裡得多補充兩句,市面上還有一個叫melody的音樂晶元,她是個什麼定義呢?簡單的來說,比單音片的效果要好比和弦音樂晶元的效果要差的一種音樂晶元,所以雙音片也有被叫成是melody音樂晶元,melody結構應該來說是一種更高級的單音片,或者可以說是二倍效果的單音片.
三, 4通道,8通道或以上:
三通道以上的聲音。又稱為和弦音樂。常說的4和弦音樂IC就是指4通道的音樂IC
一般多通道的語音晶元都是同時支持音樂IC(Music IC)和語音IC(Speech IC)功能的.
(a) “語音晶元”介紹:
(1)語音信號的量化
採樣率(f)、位數(n)、波特率(T)
採樣:將語音模擬信號轉化成數字信號。
採樣率:每秒採樣的個數(byte)。
波特率:每秒鐘採樣的位數(bit)。波特率直接決定音質。Bps: bit per second
採樣位數指在二進位條件下的位數。一般在沒有特別說明的情況下,聲音的採樣位數指8位,由00H--FFH,靜音定為80H。
(2)採樣率
奈奎斯特抽樣定理(Nyquist Law):要從抽樣信號中無失真地恢復原信號,抽樣頻率應大於2倍信號最高頻率。抽樣頻率小於2倍頻譜最高頻率時,信號的頻譜有混疊。抽樣頻率大於2倍頻譜最高頻率時,信號的頻譜無混疊。
嗓音的頻帶寬度為20~20K HZ左右,普通的聲音大概在3KHZ以下。所以,一般CD取的音質為44.1K和16bit,如果碰到某些特別的聲音,如樂器,音質也有用48K和24bit的情況,但不是主流。
一般在我們處理針對普通語音IC的時候,採樣率最高達到16K就夠了、說話聲一般取8K(如電話音質)、6K左右。低於6K效果比較差。而DKC系列語音晶元採樣可以做到22K。
在應用單片機的過程中,採樣越高,定時器中斷速度越快,會影響到其他信號的監控和檢測,所以要綜合考慮。
(3)語音壓縮技術。
由於語音數據量龐大,對語音數據進行有效壓縮是很必要的,能夠使我們在有限的ROM空間里錄入更多的語音內容。有以下幾種方式:
語音分段:將語音中可以重複的部分截取出來,通過排列組合將內容完整地回放出來。
語音採樣:一般我們使用的喇叭頻響曲線在中頻部分,較少用到高頻,所以,在喇叭音質可以接受的情況下,適當降低採樣頻率,達到壓縮效果,這種過程是不可逆的,無法恢復原貌,叫有損壓縮。
數學壓縮:主要是針對採樣位數進行壓縮,這種方式也是有損壓縮。例如,我們經常採用的ADPCM壓縮格式,是將語音數據從16bit壓縮到4bit,壓縮率是4倍。MP3是對數據流進行壓縮,涉及到數據預測問題,它的波特率壓縮倍率為10倍左右。
通常,以上幾種壓縮方式都是綜合起來使用的。
(4)常用語音格式
PCM格式: Pulse Code Modulation 脈衝編碼調製,它將聲音模擬信號採樣后得到量化后的語音數據,是最基本最原始的一種語音格式。同它極為類似的還有RAW格式和SND格式。它們都是純語音格式。
WAV格式:Wave Audio Files 是微軟公司開發的一種聲音文件格式,也叫波形聲音文件,被Windows平台及其應用程序廣泛支持。WAV格式支持許多壓縮演演算法,支持多種音頻位數、採樣頻率和聲道,但WAV格式對存儲空間需求太大不便於交流和傳播。WAV文件裡面存放的每一塊數據都有自己獨立的標識,通過這些標識可以告訴用戶究竟這是什麼數據,這些數據包括採樣頻率和位數,單聲道(mono)還是立體聲(stero)等。
ADPCM格式:是利用對過去的幾個抽樣值來預測當前輸入的樣值,並使其具有自適應的預測功能與實際檢測值進行比較,隨時對測得的差值自動進行量化級差的處理,使之始終保持與信號同步變化。它適用於語音變化率適中的情況,而且聲音回放過程簡短。它的優點是對於人聲的處理比較逼真,一般達到90%以上,已廣泛地應用於電話通信領域。
MP3格式: Moving Picture Experts Group Audio Layer III,簡稱為MP3。它是利用 MPEG Audio Layer 3 的技術,採取了名為“感官編碼技術”的編碼演演算法:編碼時先對音頻文件進行頻譜分析,然後用過濾器濾掉噪音電平,接著通過量化的方式將剩下的每一位打散排列,最後形成具有較高壓縮比的mp3文件,並使壓縮后的文件在回放時能夠達到較接近原音源的聲音效果。它的實質是vbr(Variant Bitrate 可變波特率)可以根據編碼的內容動態地選擇合適的波特率,因此編碼的結果是在保證了音質的同時又照顧了文件的大小。
mp3壓縮率10倍甚至12倍。是最初出現的一種高壓縮率的語音格式。
Linear Scale格式:根據聲音的變化率大小,把聲音分成若干段,對每段用線性比例進行壓縮,但是它的比例是可變的。
Logpcm格式:基本上對整個聲音進行線性壓縮,將最後若干位去掉。這種壓縮方式在硬體上很容易實現,但音質比Linear Scale差一些,特別是音量較小聲音比較細膩的情況下效果較差。主要用於pure speech方面。mid格式。mid格式的語音所佔的空間比較狹小,有時短短20幾秒的晶元就能裝進去十多首mid格式的音樂.
(b) “音樂晶元”介紹:
(1)音樂的通道與音色:
包絡(envelope)方波(patch) 通道(channel)
包絡:合成音色的一部分,單位時間內音符輸出的變化,常見有“ADSR”
方波:合成音色的一部分,單位時間內音符方波電流的變化。(另見三角波等)
通道:在同一時間內,晶元輸出的音符個數,即“單音樂器”的個數。
PCT:模擬音色的一種,通過採樣256個點的樂器聲音來模擬出各個音符的音高。(音色柔和,占空間小,但不夠真實)
FULL WAVE:通過採集一種樂器聲音來模擬各個音符音高。(樂器聲真實,但佔用空間大,且採集音色音質要求高)
(2)音樂的壓縮:
由於音樂數據量龐大,對音樂數據進行有效壓縮是很必要的,能夠使我們在有限的ROM空間里錄入更多的音樂內容。有以下幾種方式:
音樂分段:將音樂中可以重複的部分截取出來,通過排列組合將內容完整地回放出來。
音色:根據音樂的豐滿程度、需求程度,來確定Full wave,PCT、dual tone的選擇,各個音色佔用空間不懂,音色質量也不同。
數學壓縮:主要是針對採樣的音色(Full wave)進行壓縮,這種方式也是有損壓縮,對於要採集的音色進行降採樣、處理等減小採集音色的大小(同語音類的修音)。
語音ROM空間的表述
語音晶元為表述的形象化,由語音長度來表示
a)普通語音晶元以6K採樣率為語音長度計算標準,最大採樣到22K。
b)錄音IC以6K採樣率為語音長度計算標準。
即:以6k採樣率晶元可以播放的長度。
語音晶元的要素
相同品種的晶元成本與晶元的大小成正比。
a)I/O口的分配和ROM的大小(語音秒數)決定晶元成本。低秒數語音晶元其I/O口較少。
b)音質提高,採樣提高,語音秒數縮短。
音質降低,採樣降低,語音秒數變長
語音秒數的計算方法:M/(n*f)
M---ROM大小(bit) n*f---波特率
聲音處理軟體介紹
1)SoundForge
2)Cooledit
3)goldwave
4)Calewalk
語音晶元根據集成電路類型來分,凡是與聲音有關係的集成電路被統稱為語音晶元(又稱語音IC,這裡應該叫成Voice IC),但是在語音晶元的大類型中,又被分為語音IC(這裡應該叫成Speech IC),音樂IC(這裡應該叫成Music IC)兩種.
(a)現在市場上常見語音晶元分類:
短時間晶元有10秒,20秒,40秒,80秒,170秒的晶元,
常用的模塊有:6分鐘,8分鐘,16分鐘,1小時的等。
通用的晶元有:3秒到340秒
(b)現在市場上常見音樂晶元分類:
單音片:是一種最基本的音樂IC,是音樂單通道的,同一時間音符輸出的多少,決定了單音片的效果,有70多,100多音符等等.
音樂通道:2通道、3通道、4通道、8通道、12通道等更多。。。
控制方式:按鍵控制,一線串口控制,二線串口控制,三線串口控制,並口控制,單片機控制,等等。
(c)現行的語音晶元主要是在廣州和深圳兩地研發並且生產,主要的語音晶元大概分20秒、40秒、80秒、170秒等等,與傳統的晶元相比,這些ic多數採用的是8腳封裝,使操作變得更加簡單了。
家電行業:電磁爐、電飯煲、冰箱、洗衣機、空調、風扇等等
安防報警:倒車雷達、叉車報警器、家庭防盜、門禁系統等
醫療器械:弱視治療儀、血壓計、臭氧治療儀、血糖儀等等
廣告媒體:語音廣告牌、鏡子廣告機、迎賓器、廣告宣傳器等等
玩具系列:語音識別、小汽車,布娃娃等等
智能交通:一卡通設備、紅綠燈提醒等等
交通工具:語音電動車,語音公交站等
語音晶元