餘弦變換
餘弦變換
餘弦變換(cosine transform)正交變換的一種。
在工程實際中遇見的信號般在一個有限區間或一個周期內都具有有限能量。理論證明,這些信號(或函數)通常可以用相互正交的函數來表示(也就是可以用正交函數集取得最佳的近似)。所謂函數正交,則表示信號不包含信號的分量,滿足圖1公式的條件。若函數在同一區間內相互正交,則可以由正弦函數和餘弦函數作三角型的傅里葉級數展開。如果信號是一個連續的實數,且對稱於縱軸的偶函數,則該級數只有餘弦分量。同理,把一個離散序列延拓成偶對稱序列,則其離散傅里葉變換(DFT)也只包含餘弦項。餘弦變換就是1974年由N.阿罕麥德(N.Ahmed)等根據這一基本關係提出的一種正交變換。一個長度為N的實序列,其離散餘弦變換(DCT)定義為
圖2 公式
DCT與DFT同屬正弦型的正交變換,它含有DFT的全部信息,從而可以通過DCT對信號進行分析和綜合。按正交變換,在變換域中信號能量不僅等於原時間域(或空間域)的信號能量,而且能量往往比較集中於變換式少數幾項係數之中。所以若丟棄包含能量小的係數,則所造成的失真較小,這就為數據壓縮提供有利條件。理論推導表明,DCT很接近具有最佳能量集中特性的卡洛變換(K-L變換),但與K-L變換相比,由於它存在快速演演算法,所以正弦型變換中特性最好的變換。在工程實際中應用廣泛,特別在圖像通信對圖像傳輸中的數據壓縮、編碼和圖像增強等的效果,均較DFT方法為好。在自適應信號處理中,提高自適應濾波收斂速度以及語音壓縮編碼等方面有著廣闊應用前景。此外,DCT還具有較弱的邊界效應特性,使信號處理的結果在邊界處引入的誤差比DFT小,可以降低對窗函數的要求,簡化運算。
離散餘弦變換(DCT for Discrete Cosine Transform)是與傅里葉變換相關的一種變換,它類似於離散傅里葉變換(DFT for Discrete Fourier Transform),但是只使用實數。離散餘弦變換相當於一個長度大概是它兩倍的離散傅里葉變換,這個離散傅里葉變換是對一個實偶函數進行的(因為一個實偶函數的傅里葉變換仍然是一個實偶函數),在有些變形裡面需要將輸入或者輸出的位置移動半個單位(DCT有8種標準類型,其中4種是常見的)。
最常用的一種離散餘弦變換的類型是下面給出的第二種類型,通常我們所說的離散餘弦變換指的就是這種。它的逆,也就是下面給出的第三種類型,通常相應的被稱為"反離散餘弦變換","逆離散餘弦變換"或者"IDCT"。
有兩個相關的變換,一個是離散正弦變換(DST for Discrete Sine Transform),它相當於一個長度大概是它兩倍的實奇函數的離散傅里葉變換;另一個是改進的離散餘弦變換(MDCT for Modified Discrete Cosine Transform),它相當於對交疊的數據進行離散餘弦變換。
離散餘弦變換,尤其是它的第二種類型,經常被信號處理和圖像處理使用,用於對信號和圖像(包括靜止圖像和運動圖像)進行有損數據壓縮。這是由於離散餘弦變換具有很強的"能量集中"特性:大多數的自然信號(包括聲音和圖像)的能量都集中在離散餘弦變換后的低頻部分,而且當信號具有接近馬爾科夫過程(Markov processes)的統計特性時,離散餘弦變換的去相關性接近於K-L變換(Karhunen-Loève 變換--它具有最優的去相關性)的性能。
例如,在靜止圖像編碼標準JPEG中,在運動圖像編碼標準MJPEG和MPEG的各個標準中都使用了離散餘弦變換。在這些標準制中都使用了二維的第二種類型離散餘弦變換,並將結果進行量化之後進行熵編碼。這時對應第二種類型離散餘弦變換中的n通常是8,並用該公式對每個塊的每行進行變換,然後每列進行變換。得到的是一個的變換係數矩陣。其中位置的元素就是直流分量,矩陣中的其他元素根據其位置表示不同頻率的交流分量。
一個類似的變換, 改進的離散餘弦變換被用在高級音頻編碼(AAC for Advanced Audio Coding),Vorbis 和 MP3 音頻壓縮當中。
離散餘弦變換也經常被用來使用譜方法來解偏微分方程,這時候離散餘弦變換的不同的變數對應著數組兩端不同的奇/偶邊界條件。