掩蔽效應

掩蔽效應

掩蔽效應是指人耳只對最明顯的聲音反應敏感,而對於不敏感的聲音,反應則較不為敏感。例如在聲音的整個頻率譜中,如果某一個頻率段的聲音比較強,則人就對其它頻率段的聲音不敏感了。應用此原理,人們發明了mp3等壓縮的數字音樂格式,在這些格式的文件里,只突出記錄了人耳朵較為敏感的中頻段聲音,而對於較高和較低的頻率的聲音則簡略記錄,從而大大壓縮了所需的存儲空間。在人們欣賞音樂時,如果設備對高頻響應得比較好,則會使人感到低頻響應不好,反之亦然。

英文名稱


掩蔽效應: Masking Effects

同步掩蔽的定義


同步掩蔽(也稱為聲響掩蔽)
要描述同步掩蔽效應,最好是通過一個類比。想象一隻在太陽前面飛翔的小鳥。你看到小鳥從左邊飛到你和太陽之間,然後小鳥消失,因為太陽光線的亮度太高。當小鳥移出太陽區域,你就又能看到它了。就像在一個安靜的環境中,吉他手的手指輕輕滑過琴弦的響聲都能聽到,但如果同樣的響聲在一個正在播放搖滾樂曲的環境中,一般人就聽不到了。
Mp3編解碼器只關心頻率之間和音量之間的相互關係。用mp3編解碼器能夠處理的方式描述同步掩蔽如下:你有個聲音信號,是個1000赫茲的正弦波
一 然後我們再來一個1100赫茲的正弦波。
掩蔽效應
掩蔽效應
二正弦波二比較弱,-10db。大多數人在這種情況下感知不到正弦波二的存在。但是正弦波二之所以不容易被感知,不僅因為它比較弱,而且還因為它的頻率和正弦波一十分接近。為了說明這個現象,我們逐漸增加第二個正弦波的頻率,但保持它的音量不變,直到我們能聽到它。假定它的頻率增加到4000赫茲的時候我們就能聽到這個聲音了。當兩個正弦波的頻率差別逐漸變大,第二個正弦波逐漸可以聽得到,直到它的頻率增高到某一點之後,絕大多數人都可以聽到兩個互不相同的音調了,一個比較大聲,另一個比較小聲。
這個過程就是心理聲學所說的“同步掩蔽”現象。兩個頻率相近,但是音量相差很多的聲音,很難被人類感知為兩個不同的聲音。考慮到這種現象,mp3在編碼過程中盡量丟棄那些無法被感知的聲音,或者分配儘可能少的比特給這些聲音。

聽覺的掩蔽效應


一種頻率的聲音阻礙聽覺系統感受另一種頻率的聲音的現象稱為掩蔽效應。前者稱為掩蔽聲音(maskingtone),後者稱為被掩蔽聲音(maskedtone)。掩蔽可分成頻域掩蔽和時域掩蔽。
1.頻域掩蔽
掩蔽效應
掩蔽效應
一個強純音會掩蔽在其附近同時發聲的弱純音,這種特性稱為頻域掩蔽,也稱同時掩蔽(simultaneousmasking),如圖12-03所示。從圖12-03可以看到,聲音頻率在300Hz附近、聲強約為60dB的聲音掩蔽了聲音頻率在150Hz附近、聲強約為40db的聲音。又如,一個聲強為60dB、頻率為1000Hz的純音,另外還有一個1100Hz的純音,前者比後者高18dB,在這種情況下我們的耳朵就只能聽到那個1000Hz的強音。如果有一個1000Hz的純音和一個聲強比它低18dB的2000Hz的純音,那麼我們的耳朵將會同時聽到這兩個聲音。要想讓2000Hz的純音也聽不到,則需要把它降到比1000Hz的純音低45dB。一般來說,弱純音離強純音越近就越容易被掩蔽。
一組曲線分別表示頻率為250Hz,1kHz和4kHz純音的掩蔽效應,它們的聲強均為60dB。從圖14-04中可以看到:①在250Hz,1kHz和4kHz純音附近,對其他純音的掩蔽效果最明顯,②低頻純音可以有效地掩蔽高頻純音,但高頻純音對低頻純音的掩蔽作用則不明顯。
由於聲音頻率與掩蔽曲線不是線性關係,為從感知上來統一度量聲音頻率,引入了“臨界頻帶(criticalband)”的概念。通常認為,在20Hz到16kHz範圍內有24個臨界頻帶,如表12-01所示。臨界頻帶的單位叫Bark(巴克),
1Bark=一個臨界頻帶的寬度。
f(頻率)500Hz的情況下,1Bark≈9+4log(f/1000)。
以上我們討論了響度、音高和掩蔽效應,尤其是人的主觀感覺。其中掩蔽效應尤為重要,它是心理聲學模型的基礎。
2.時域掩蔽
除了同時發出的聲音之間有掩蔽現象之外,在時間上相鄰的聲音之間也有掩蔽現象,並且稱為時域掩蔽。時域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking),如圖12-05所示。產生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間。一般來說,超前掩蔽很短,只有大約5~20ms,而滯后掩蔽可以持續50~200ms。這個區別也是很容易理解的。
3.時間掩蔽
同步掩蔽效應和不同頻率聲音的頻率和相對音量有關,時間掩蔽則僅僅和時間有關。如果兩個聲音在時間上特別接近,人類在分辨它們的時候也會有困難。例如如果一個很響的聲音後面緊跟著一個很弱的聲音,后一個聲音就很難聽到。但是如果在第一個聲音停止後過一段時間再播放第二個聲音,后一個聲音就可以聽到。到底應該間隔多長時間?對純音一般來講是5毫秒。當然如果在時序上反過來效果是一樣的,如果一個較低的聲音出現在一個較高的聲音之前而且間隔很短,那個較低的聲音你也聽不到。
JPEG壓縮可以明確控制壓縮中的信息丟棄比率,但Mp3用戶不能。可是mp3用戶可以指定每一秒的音樂是用多少個bit來存儲。最終效果相同。
掩蔽效應
掩蔽效應
編碼過程中,信號中的“無用分量”被拿來和人類心理聲學的數學模型,以及壓縮使用的彼特率作比較,以決定要扔掉哪些數據。當前mp3壓縮使用的比特率一般是128kbps。編碼器在輸出每一幀數據的時候都會考慮到這個數字,如果比特率比較低,那麼“無關”和“冗餘”數據的定義就會被放寬,導致大量的數據被認為是無用數據,此時壓縮后的音頻會丟失大量細節,導致音質下降。相反,如果使用較高的比特率編碼,“無關”和“冗餘”的標準就會被限定的更嚴格,細節會被保留,但是文件更大。
注意,mp3文件的比特率指的是所有被編碼聲道的總比特率。也就是說一個128kbps立體聲mp3文件,和兩個同樣時間的64kbps的單聲道mp3文件加起來的大小相同。但是一個128kbps立體聲文件達到的音效,比兩個單獨的單聲道64kbps文件所達到的音質要好。因為在一個立體聲mp3文件中,所有的bit可以被按照需求(不平均地)分配給兩個聲道,比如某一個時刻,一個聲道使用其中60%的比特,另外一個使用剩下40%的比特,只不過總比特數不會超過編碼前指定的比特率參數。

固定比特率和可變比特率


掩蔽效應
掩蔽效應
我們假定這裡討論的mp3編碼使用的是固定比特率的編碼方式,也就是說編碼產生的文件在任何一個時間段內輸出的比特率都是你指定的那個數值。固定比特率編碼的缺點是,絕大部分聲音文件中的信息量並不是固定不變的。使用樂器較多,或者有很多人同時說話的音頻片斷中,信息量就大,反之就小:類似這樣影響音頻文件信息量的因素還有很多。可變比特率編碼就是為了適應音頻文件的這一特點開發的。可變比特率編碼,會根據音頻數據的動態特性隨時調整編碼使用的比特率。
多數情況下,可變比特率編碼能用更小的文件達到和固定比特率編碼基本相同的音質。但是可變比特率編碼也有其自身的缺點。首先,一些比較古老的播放器根本支持對可變比特率mp3文件的解碼,不能播放這樣的文件。第二,解碼器播放可變比特率mp3的時候無法確定當前解碼(播放)到了什麼位置,播放器上顯示的“當前播放時間”是不準的。
對一個固定比特率壓縮的mp3文件來說,每一幀的頭部中的信息都是相同的,但是對可變比特率mp3編碼來說就不是。但是解碼的時候,可變比特率編碼並不比固定比特率的文件需要更多的計算能力,因為mp3解碼器即使在播放固定比特率的mp3文件的時候也要讀取全部的幀頭部。
編碼過程中輸出任何一幀的時候都必須考慮到,不能超過指定的比特率。由於聲音數據的複雜,經常會看到一些幀的數據,不能在滿足指定的比特率的前提下,同時達到既定的聲音質量。對這樣的情況,Mp3標準允許編碼器“拆東牆補西牆”,也就是把這一幀里放不下的數據,放到另外一些數據較少、因而有剩餘空間的幀內。注意多出來的空間,是別的幀里多出來的富餘空間,而不是特別開闢出來的額外空間。

視覺的掩蔽效應


1.空間域中的掩蔽效應
視覺的大小不僅與鄰近區域的平均亮度有關,還與鄰近區域的亮度在空間上的變化(不均勻性)有關。假設將一個光點放在亮度不均勻的背景上,通過改變光點的亮度測試此時的視覺,人們發現,背景亮度變化越劇烈,視覺越高,即人眼的對比度靈敏度越低。這種現象稱為空間域中的視覺的掩蔽效應。
2.時間域中掩蔽效應
影響時間域中掩蔽效應的因素比較複雜,對它的研究還處於初始階段。這裡僅介紹一些實驗結果,這些結果可能在數據壓縮方面具有潛在的應用價值。實驗表明,當電視圖像序列中相鄰畫面的變化劇烈(例如場景切換)時,人眼的分辨力會突然劇烈下降,例如下降到原有分辨力的1/10。也就是說,當新場景突然出現時,人基本上看不清新景物,在大約0.5秒之後,視力才會逐漸恢復到正常水平。顯然,在這0.5秒內,傳送解析度很高的圖像是沒有必要的。研究者還發現,當眼球跟著畫面中的運動物體轉動時,人眼的解析度要高於不跟著物體轉動的情況。而通常在看電視時,眼睛是很難跟蹤運動中的物體的。
3.彩色的掩蔽效應
在亮度變化劇烈的背景上,例如在黑白跳變的邊沿上,人眼對色彩變化的敏感程度明顯地降低。類似地,在亮度變化劇烈的背景上,人眼對彩色信號的雜訊(例如彩色信號的量化雜訊)也不易察覺。這些都體現了亮度信號對彩色信號的掩蔽效應。

人耳的掩蔽效應


掩蔽效應
掩蔽效應
一個較弱的聲音(被掩蔽音)的聽覺感受被另一個較強的聲音(掩蔽音)影響的現象稱為人耳的“掩蔽效應”。人耳的掩蔽效應 一個較弱的聲音(被掩蔽音)的聽覺感受被另一個較強的聲音(掩蔽音)影響的現象稱為人耳的“掩蔽效應”。被掩蔽音單獨存在時的聽閾分貝值,或者說在安靜環境中能被人耳聽到的純音的最小值稱為絕對聞閾。實驗表明,3kHz—5kHz絕對聞閾值最小,即人耳對它的微弱聲音最敏感;而在低頻和高頻區絕對聞閾值要大得多。在800Hz--1500Hz範圍內聞閾隨頻率變化最不顯著,即在這個範圍內語言可儲度最高。在掩蔽情況下,提高被掩蔽弱音的強度,使人耳能夠聽見時的聞閾稱為掩蔽聞閾(或稱掩蔽門限),被掩蔽弱音必須提高的分貝值稱為掩蔽量(或稱閾移)。
1.掩蔽效應 已有實驗表明,純音對純音、噪音對純音的掩蔽效應結論如下: A.純音間的掩蔽 ①對處於中等強度時的純音最有效的掩蔽是出現在它的頻率附近。 ②低頻的純音可以有效地掩蔽高頻的純音,而反過來則作用很小。 B.噪音對純音的掩蔽噪音是由多種純音組成,具有無限寬的頻譜 若掩蔽聲為寬頻雜訊,被掩蔽聲為純音,則它產生的掩蔽門限在低頻段一般高於雜訊功率譜密度17dB,且較平坦;超過500Hz時大約每十倍頻程增大10dB。若掩蔽聲為窄帶雜訊,被掩蔽聲為純音,則情況較複雜。其中位於被掩蔽音附近的由純音分量組成的窄帶雜訊即臨界頻帶的掩蔽作用最明顯。所謂臨界頻帶是指當某個純音被以它為中心頻率,且具有一定帶寬的連續雜訊所掩蔽時,如果該純音剛好能被聽到時的功率等於這一頻帶內雜訊的功率,那麼這一帶寬稱為臨界頻帶寬度。臨界頻帶的單位叫巴克(Bark),1Bark=一個臨界頻帶寬度。頻率小於500Hz時,1Bark約等於freq/100;頻率大於500Hz時,1Bark約等於9+41og(freq/1000),即約為某個純音中心頻率的20% 通常認為,20Hz--16kHz範圍內有24個子臨界頻帶。而當某個純音位於掩蔽聲的臨界頻帶之外時,掩蔽效應仍然存在。
掩蔽效應
掩蔽效應
2.掩蔽類型 (1)頻域掩蔽 所謂頻域掩蔽是指掩蔽聲與被掩蔽聲同時作用時發生掩蔽效應,又稱同時掩蔽。這時,掩蔽聲在掩蔽效應發生期間一直起作用,是一種較強的掩蔽效應。通常,頻域中的一個強音會掩蔽與之同時發聲的附近的弱音,弱音離強音越近,一般越容易被掩蔽;反之,離強音較遠的弱音不容易被掩蔽。例如,—個1000Hz的音比另一個900Hz的音高18dB,則900Hz的音將被1000Hz的音掩蔽。而若1000Hz的音比離它較遠的另一個1800Hz的音高18dB,則這兩個音將同時被人耳聽到。若要讓1800Hz的音聽不到,則1000Hz的音要比1800Hz的音高45dB。一般來說,低頻的音容易掩蔽高頻的音;在距離強音較遠處,絕對聞閾比該強音所引起的掩蔽閾值高,這時,雜訊的掩蔽閾值應取絕對聞閾。 (2)時域掩蔽 所謂時域掩蔽是指掩蔽效應發生在掩蔽聲與被掩蔽聲不同時出現時,又稱異時掩蔽。異時掩蔽又分為導前掩蔽和滯后掩蔽。若掩蔽聲音出現之前的一段時間內發生掩蔽效應,則稱為導前掩蔽;否則稱為滯后掩蔽。產生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間,異時掩蔽也隨著時間的推移很快會衰減,是一種弱掩蔽效應。一般情況下,導前掩蔽只有3ms—20ms,而滯后掩蔽卻可以持續50ms—100m。研究聲音和它引起的聽覺之間關係的一門邊緣學科。它既是聲學的一個分支,也是心理物理學的一個分支。心理聲學本可包括言語和音樂這樣一些複合聲和它們的知覺。這些可見語言聲學、音樂聲學等條,本條只限於較基礎和簡單的心理聲學現象,即:
①剛剛能引起聽覺的聲音──聽閾;
②聲音的強度、頻率、頻譜和時長這些參量所決定的聲音的主觀屬性──響度、音調、音色和音長;
③某些和複合聲音有關的特殊的心理聲學效應──餘音、掩蔽、非線性、雙耳效應。
掩蔽效應
掩蔽效應
聽閾
聽閾分強度閾和差閾。聲音不夠一定強度不能引起聽覺。在多次作用中能有50%的次數引起聽覺的最小聲壓級稱為強度閾(也稱聽閾)。聽閾有個體差異,因而所謂正常聽閾只能是一些聽力正常的年輕人的聽閾的統計平均值。聽閾隨頻率而變化。500~4000Hz之間閾值最低,在它們之上和之下的高頻聲和低頻聲的閾值都較高,如20Hz純音的閾值比1000Hz純音的閾值約高70dB,10000Hz純音的閾值也比 1000Hz純音的閾值約高10dB。最敏感的頻率是3000Hz左右,空氣分子振動的振幅達到10-11m 就可以聽到,這隻有氫氣分子的直徑的十分之一。聽閾隨年齡而增高,特別是高頻部分,表現為老年聾,如70歲的老人,5000Hz純音的聽閾約增高45dB。
聽閾的概念還包括差閾,即兩個聲音引起聽覺差別的最小可覺差。就頻率說,在63Hz左右有經驗的人耳能區別相差0.5Hz的兩個純音的差別,但這種閾值在1000Hz要增加到1.4Hz,頻率越高差閾越大。人耳能區別的強度差值最小0.25dB(1000~4000Hz,70dB以上),強度低或頻率更高或更低時,強度差閾更大。在整個聽覺範圍內,可辨別的聲音約34萬個。
聲音的主觀屬性響度表示的是一個聲音聽來有多響的程度。響度主要隨聲音的強度而變化,但也受頻率的影響。兩者的量的關係,按古典的心理物理學規律,響度與強度的對數成正比。為了檢驗這一假說的正確性,現代心理物理學進行了響度的定量判斷實驗,並建立了響度量表,其單位為宋(son)。1宋的定義為40dB1000Hz純音所引起的響度,大致相當於耳語的聲級。宋量表證明,響度正比於 1000Hz等響聲壓的0.6次冪,就是說,1000Hz等響聲的聲壓級提高10dB,響度加倍。前者稱為響度級,這說明響度的變化不是單純地決定於聲音強度,也與頻率有關。不同頻率的兩個純音,雖強度相同,引起的響度卻不同。總的說,中頻純音聽來比低頻和高頻純音響一些。以不同聲壓級的1000Hz純音為參照聲,通過響度平衡實驗,可以得到一簇等響線,如上圖所示。在一條等響線上,各頻率的純音儘管聲壓級不同,但都與該曲線上的1000Hz純音等響。1000Hz純音的這一聲壓級即定為此曲線上各純音的響度級,其單位稱為方(phon)。
掩蔽效應
掩蔽效應
音調
音調是聲音聽來調子高低的程度。音調主要決定於聲音的頻率,它隨頻率的升降而升降。但是,它也不是單純地由頻率決定,與聲音強度也有關係。低頻純音的音調隨強度增加而下降;反之,高頻純音的音調卻隨強度增加而上升。類似響度的宋量表,也制定了音調量表。音調定量判斷實驗是讓聽者調節發生器產生一系列純音,使它們在音調上聽來間隔相等。這樣取得的平均判斷構成了音調量表,其單位稱為美。在此量表上,1000Hz純音的音調被定為1000美(mel)。
音色
音色是對聲音音質的感覺。上面提過的純音不存在音色問題,它是伴隨複合聲出現的。明顯的例子是不同樂器所發出的聲音在音色上的不同。小提琴和鋼琴發出的中央C,儘管它們響度和音調相同,聽起來還是不一樣,原因在於它們音色的差異。聲音的音色決定於它們的頻譜,即聲音諧波振幅的不同。複合聲這種多量綱的特點使得音色也具有多量綱性,不同於只有單個量綱的響度和音調。響度可以在宋量表上定出由響到輕的程度,音調可以在美量表上定出由高到低的程度,音色則只能用多維空間上相應的點來確定。言語聲的多維量表實驗證明,音色的知覺空間上的點與頻譜的物理空間上的點是非常吻合的。
掩蔽效應
掩蔽效應
音長 音長是聲音長短的感覺。聲音的參量作為時間的函數只要有兩個清楚的變化便可產生主觀音長感覺。最簡單的例子是一個聲脈衝或一段休止,它們都只有一頭一尾的變化。很久以來,人們總以為音長和聲音的物理長短是相等的,忽視了對它的研究。其實,在極端情況下兩者可相差四五倍之多。這是用脈衝聲和短於 500ms的休止所作的實驗結果。音長受聲級的影響不大,但頻率對它的影響卻不可忽視,尤其是300ms以下的短聲。如果以3 200Hz的脈衝聲作參照,頻率在它上下的脈衝聲必須有較長的物理聲長才能產生相等的音長感覺。用這種音長平衡實驗可以得到一簇類似於等響線的等音長線。

參考文獻


1.《音頻製作人》
2.《大英百科全書》聲學