音頻採樣

音頻採樣

數碼音頻系統是通過將聲波波形轉換成一連串的二進位數據來再現原始聲音的,實現這個步驟使用的設備是模/數轉換器(A/D)它以每秒上萬次的速率對聲波進行採樣,每一次採樣都記錄下了原始模擬聲波在某一時刻的狀態,稱之為樣本。將一串的樣本連接起來,就可以描述一段聲波了,把每一秒鐘所採樣的數目稱為採樣頻率或采率,單位為HZ(赫茲)。採樣頻率越高所能描述的聲波頻率就越高。採樣率決定聲音頻率的範圍(相當於音調),可以用數字波形表示。以波形表示的頻率範圍通常被稱為帶寬。要正確理解音頻採樣可以分為採樣的位數和採樣的頻率。

採樣的位數


音頻採樣
音頻採樣
採樣位數可以理解為採集卡處理聲音的解析度。這個數值越大,解析度就越高,錄製和回放的聲音就越真實。我們首先要知道:電腦中的聲音文件是用數字0和1來表示的。連續的模擬信號按一定的採樣頻率經數碼脈衝取樣后,每一個離散的脈衝信號被以一定的量化精度量化成一串二進位編碼流,這串編碼流的位數即為採樣位數,也稱為量化精度。從碼率的計算公式中可以清楚的看出碼率和採樣位數的關係:碼率=取樣頻率×量化精度×聲道數。
在電腦上錄音的本質就是把模擬聲音信號轉換成數字信號。反之,在播放時則是把數字信號還原成模擬聲音信號輸出。採集卡的位是指採集卡在採集和播放聲音文件時所使用數字聲音信號的二進位位數。採集卡的位客觀地反映了數字聲音信號對輸入聲音信號描述的準確程度。8位代表2的8次方--256,16位則代表2的16次方--64K。比較一下,一段相同的音樂信息,16位音效卡能把它分為64K個精度單位進行處理,而8位音效卡只能處理256個精度單位。8位採樣的差別在於動態範圍的寬窄,動態範圍寬廣,音量起伏的大小變化就能夠更精細的被記錄下來,如此一來不論是細微的聲音或是強烈的動感震撼,都可以表現的淋漓盡致,而CD音質的採樣規格正式16位採樣的規格。
16位二進位數的最小值是0000000000000000,最大值是1111111111111111,對應的十進位數就是0和65535,也就是最大和最小值之間的差值是65535,也就是說,它量化的模擬量的動態範圍可以差65535,也就是96.32分貝,所以,量化精度只和動態範圍有關,和頻率響應沒關係。動態範圍定在96分貝也是有道理的,人耳的無痛苦極限聲壓是90分貝,96分貝的動態範圍在普通應用中足夠使用,所以96分貝動態範圍內的模擬波,經量化后,不會產生削波失真的。
聲音的位數就相當於畫面的顏色數,表示每個取樣的數據量,當然數據量越大,回放的聲音越準確,不至於把開水壺的叫聲和火車的鳴笛混淆。同樣的道理,對於畫面來說就是更清晰和準確,不至於把血和西紅柿醬混淆。不過受人的器官的機能限制,16位的聲音和24位的畫面基本已經是普通人類的極限了,更高位數就只能靠儀器才能分辨出來了。比如電話就是3kHZ取樣的7位聲音,而CD是44.1kHZ取樣的16位聲音,所以CD就比電話更清楚。
如今市面上所有的主流產品都是16位的採集卡,而並非有些無知商家所鼓吹的64位乃至128位,他們將採集卡的複音概念與採樣位數概念混淆在了一起。如今功能最為強大的採集卡系列採用的EMU10K1晶元雖然號稱可以達到32位,但是它只是建立在Direct Sound加速基礎上的一種多音頻流技術,其本質還是一塊16位的音效卡。應該說16位的採樣精度對於電腦多媒體音頻而言已經綽綽有餘了。很多人都說,就算從原版CD抓軌,再刻錄成CD,重放的音質也是不一樣的,這個也是有道理的,那麼,既然0101這樣的二進數是完全克隆的,重放怎麼會不一樣呢?那是因為,時基問題造成的數模互換時的差別,並非是克隆過來的二進位數變了,二進位數一個也沒變,時基誤差不一樣,數模轉換后的模擬波的頻率和源相比就會有不一樣。

採樣的頻率


採樣頻率是指錄音設備在一秒鐘內對聲音信號的採樣次數,採樣頻率越高聲音的還原就越真實越自然。在當今的主流採集卡上,採樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級,22.05 KHz只能達到FM廣播的聲音品質,44.1KHz則是理論上的CD音質界限,48KHz則更加精確一些。對於高於48KHz的採樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價值。
5kHz的採樣率僅能達到人們講話的聲音質量。
11kHz的採樣率是播放小段聲音的最低標準,是CD音質的四分之一。
22kHz採樣率的聲音可以達到CD音質的一半,目前大多數網站都選用這樣的採樣率。
44kHz的採樣率是標準的CD音質,可以達到很好的聽覺效果。
採樣率類似於動態影像的幀數,比如電影的採樣率是24赫茲,PAL制式的採樣率是25赫茲,NTSC制式的採樣率是30赫茲。當我們把採樣到的一個個靜止畫面再以採樣率同樣的速度回放時,看到的就是連續的畫面。同樣的道理,把以44.1kHZ採樣率記錄的CD以同樣的速率播放時,就能聽到連續的聲音。顯然,這個採樣率越高,聽到的聲音和看到的圖像就越連貫。當然,人的聽覺和視覺器官能分辨的採樣率是有限的。對同一段聲音,用20kHz和44.1kHz來採樣,重放時,可能可以聽出其中的差別,而基本上高於44.1kHZ採樣的聲音,比如說96kHz採樣,絕大部分人已經覺察不到兩種採樣出來的聲音的分別了。之所以使用44.1kHZ這個數值是因為經過了反覆實驗,人們發現這個採樣精度最合適,低於這個值就會有較明顯的損失,而高於這個值人的耳朵已經很難分辨,而且增大了數字音頻所佔用的空間。一般為了達到“萬分精確”,我們還會使用48k甚至96k的採樣精度,實際上,96k採樣精度和44.1k採樣精度的區別絕對不會象44.1k和22k那樣區別如此之大,我們所使用的CD的採樣標準就是44.1k。

位速


位速是指在一個數據流中每秒鐘能通過的信息量。您可能看到過音頻文件用“128–Kbps MP3”或“64–Kbps WMA”進行描述的情形。Kbps 表示“每秒千位數”,因此數值越大表示數據越多:128–Kbps MP3 音頻文件包含的數據量是 64–Kbps WMA 文件的兩倍,並佔用兩倍的空間。(不過在這種情況下,這兩種文件聽起來沒什麼兩樣。原因是什麼呢?有些文件格式比其他文件能夠更有效地利用數據, 64–Kbps WMA 文件的音質與 128–Kbps MP3 的音質相同。)需要了解的重要一點是,位速越高,信息量越大,對這些信息進行解碼的處理量就越大,文件需要佔用的空間也就越多。
為項目選擇適當的位速取決於播放目標:如果您想把製作的 VCD 放在 DVD 播放器上播放,那麼視頻必須是 1150 Kbps,音頻必須是 224 Kbps。典型的 206 MHz Pocket PC 支持的 MPEG 視頻可達到 400 Kbps—超過這個限度播放時就會出現異常。

VBR


VBR(Variable Bitrate)動態比特率。也就是沒有固定的比特率,壓縮軟體在壓縮時根據音頻數據即時確定使用什麼比特率。這是新發展的演演算法,他們將一首歌的複雜部分用高Bitrate編碼,簡單部分用低Bitrate編碼。主意雖然不錯,可惜新編碼器的VBR演演算法很差,音質與CBR相去甚遠。幸運的是, Lame完美地優化了VBR演演算法,使之成為MP3的最佳編碼模式。這是以質量為前提兼顧文件大小的方式,推薦編碼模式。
ABR(Average Bitrate)平均比特率,是VBR的一種插值參數。Lame針對CBR不佳的文件體積比和VBR生成文件大小不定的特點獨創了這種編碼模式。ABR也被稱為“Safe VBR”,它是在指定的平均Bitrate內,以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對低的流量,高頻和大動態表現時使用高流量。舉例來說,當指定用192kbps ABR對一段wav文件進行編碼時,Lame會將該文件的85%用192kbps固定編碼,然後對剩餘15%進行動態優化:複雜部分用高於192kbps 來編碼、簡單部分用低於192kbps來編碼。與192kbps CBR相比,192kbps ABR在文件大小上相差不多,音質卻提高不少。ABR編碼在速度上是VBR編碼的2到3倍,在128-256kbps範圍內質量要好於CBR。可以做為 VBR和CBR的一種折衷選擇。
CBR(Constant Bitrate),常數比特率,指文件從頭到尾都是一種位速率。相對於VBR和ABR來講,它壓縮出來的文件體積很大,但音質卻不會有明顯的提高。
對MP3來說Bitrate是最重要的因素,它用來表示每秒鐘的音頻數據佔用了多少個bit(bit per second,簡稱bps)。這個值越高,音質就越好。

MP3


MP3的全稱應為MPEG1 Layer-3音頻文件,MPEG(Moving Picture Experts Group)在漢語中譯為活動圖像專家組,特指活動影音壓縮標準,MPEG音頻文件是MPEG1標準中的聲音部分,也叫MPEG音頻層,它根據壓縮質量和編碼複雜程度劃分為三層,即Layer-1、Layer2、Layer3,且分別對應MP1、MP2、MP3這三種聲音文件,並根據不同的用途,使用不同層次的編碼。MPEG音頻編碼的層次越高,編碼器越複雜,壓縮率也越高,MP1和MP2的壓縮率分別為4:1和6:1-8:1,而MP3的壓縮率則高達 10:1-12:1,也就是說,一分鐘CD音質的音樂,未經壓縮需要10MB的存儲空間,而經過MP3壓縮編碼后只有1MB左右。不過MP3對音頻信號採用的是有損壓縮方式,為了降低聲音失真度,MP3採取了“感官編碼技術”,即編碼時先對音頻文件進行頻譜分析,然後用過濾器濾掉噪音電平,接著通過量化的方式將剩下的每一位打散排列,最後形成具有較高壓縮比的MP3文件,並使壓縮后的文件在回放時能夠達到比較接近原音源的聲音效果。(另MP3PRO: mp3PRO編碼器將音頻的錄音分成兩個部分:mp3部分和PRO部分。mp3部分分析低頻段(Low Frequency Band)信息,並將其編碼成通常的mp3文件數據流。這就使得編碼器能夠集中編碼更少的有用信息,獲得更佳品質的編碼效果。同時,這也保證了 mp3PRO文件同老的mp3播放器的兼容性。PRO部分分析的則是高頻段(High Frequency Band)信息,並將其編碼成mp3數據流的一部分,而這些通常在老的mp3解碼器里是被忽略的。新的mp3PRO解碼器會有效地利用這部分數據流,將兩段(高頻段和低頻段)合併起來產生完全的音頻帶,達到增強音質的效果。