數字視頻
以數字形式記錄的視頻
數字視頻就是先用攝像機之類的視頻捕捉設備,將外界影像的顏色和亮度信息轉變為電信號,再記錄到儲存介質(如錄像帶)。
數字視頻就是以數字形式記錄的視頻,和模擬視頻相對的。數字視頻有不同的產生方式,存儲方式和播出方式。比如通過數字攝像機直接產生數字視頻信號,存儲在數字帶,P2卡,藍光盤或者磁碟上,從而得到不同格式的數字視頻。然後通過PC,特定的播放器等播放出來。
為了存儲視覺信息,模擬視頻信號的山峰和山谷必須通過模擬/數字(A/D)轉換器來轉變為數字的“0”或“1”。這個轉變過程就是我們所說的視頻捕捉(或採集過程)。如果要在電視機上觀看數字視頻,則需要一個從數字到模擬的轉換器將二進位信息解碼成模擬信號,才能進行播放。
模擬視頻的數字化包括不少技術問題,如電視信號具有不同的制式而且採用複合的YUV信號方式,而計算機工作在RGB空間;電視機是隔行掃描,計算機顯示器大多逐行掃描;電視圖像的解析度與顯示器的解析度也不盡相同等等。因此,模擬視頻的數字化主要包括色彩空間的轉換、光柵掃描的轉換以及解析度的統一。
模擬視頻一般採用分量數字化方式,先把複合視頻信號中的亮度和色度分離,得到YUV或YIQ分量,然後用三個模/數轉換器對三個分量分別進行數字化,最後再轉換成RGB空間。
談到數字視頻的發展歷史,不能不回顧計算機的發展歷程,它實際上是與計算機所能處理的信息類型密切相關的,自上個世紀40年代計算機誕生以來,計算機大約經歷了以下幾個發展階段:數值計算階段。這是計算機問世后的“幼年”時期。在這個時期計算機只能處理數值數據,主要用於解決科學與工程技術中的數學問題。實際上,世界上第一台電子計算機ENIAC就是為美國國防部解決彈道計算問題和編製射擊表而研製生產的。
數據處理階段。50年代發明了字元發生器,使計算機不但能處理數值,也能表示和處理字母及其它各種符號,從而使計算機的應用領域從單純的數值計算進入了更加廣泛的數據處理。這是由世界上第一個批量生產的商用計算機UNIAC—1首開先河的。
多媒體階段。隨著電子器件的進展,尤其是各種圖形、圖像設備和語音設備的問世,計算機逐漸進入多媒體時代,信息載體擴展到文、圖、聲等多種類型,使計算機的應用領域進一步擴大。
由於視覺,即圖形、圖像,最能直觀明了、生動形象地傳達有關對象的信息,因而在多媒體計算機中佔有重要的地位。
在多媒體階段,計算機與視頻就產生了聯姻。數字視頻的發展主要是指在個人計算機上的發展,可以大致分為初級、主流和高級幾個歷史階段。
第—階段是初級階段,其主要特點就是在台式計算機上增加簡單的視頻功能,利用電腦來處理活動畫面,這給人展示了一番美好的前景,但是由於設備還未能普及,都是面向製作視頻製作領域的專業人員。在普通PC用戶還無法奢望在自己的電腦上實現視頻功能。
第二個階段為主流階段,在這個階段數字視頻在計算機中得到廣泛應用,成為主流。初期數字視頻的發展沒有人們期望的那麼快,原因很簡單,就是對數字視頻的處理很費力,這是因為數字視頻的數據量非常之大,1分鐘的滿屏的真彩色數字視頻需要1.5GB的存儲空間,而在早期—般台式機配備的硬碟容量大約是幾百兆,顯然無法勝任如此大的數據量。
雖然在當時處理數字視頻很困難,但它所帶來的誘惑促使人們採用折衷的方法。先是用計算機捕獲單幀視頻畫面,可以捕獲一幀視頻圖像並以一定的文件格式存儲起來,可以利用圖像處理軟體進行處理,將它放進準備出版的資料中;後來,在計算機上觀看活動的視頻成為可能。雖然畫面時斷時續,但畢竟是動了起來,帶給人們無限的驚喜。
而最有意義的突破是計算機有了捕獲活動影像的能力,將視頻捕獲到計算機中,隨時可以從硬碟上播放視頻文件。能夠捕獲視頻得益於數據壓縮方法,壓縮方法有兩種:純軟體壓縮和硬體輔助壓縮純軟體壓縮方便易行,只用一個小窗口顯示視頻,有很多這方面的軟體。硬體壓縮花費高,但速度快。在這一過程中,雖然能夠捕獲到視頻,但是缺乏一個統一的標準,不同的計算機捕獲的視頻文件不能交換。雖然有過一個所謂的“標準”,但是它沒有得到足夠的流行,因此沒有變成真正的標準,它就是數字視頻交互(DVI)。DVI在捕獲視頻時使用硬體輔助壓縮,但在播放時卻只使用軟體,因此在播放時不需要專門的設備。但是DVI沒有形成市場,因此沒有被廣泛的了解和使用。因此就難以流行。這就需要計算機與視頻再做一次結合,建立一個標準,使得每台計算機都能播放令人心動的視頻文件。這次結合成功的關鍵是各種壓縮解壓縮Codec技術的成熟。Codec來自於兩個單詞Compression(壓縮)和Decompression(解壓),它是一種軟體或者固件(固化於用於視頻文件的壓縮和解壓的程序晶元)。壓縮使得將視頻數據存儲到硬碟上成為可能。如果幀尺寸較小幀切換速度較慢,再使用壓縮和解壓,存儲1分鐘的視頻數據只需20MB的空間而不是1.5GB,所需存儲空間的比例是20:1500,即1:75。當然在顯示窗口看到的只是解析度為160×120郵票般大小的畫面,幀速率也只有15幀/s,色彩也只有256色,但畫面畢竟活動起來了。
Quicktime和Video for Windows通過建立視頻文件標準MOV和AVI使數字視頻的應用前景更為廣闊,使它不再是一種專用的工具,而成為每個人電腦中的必備成分。而正是數字視頻發展的這一步,為電影和電視提供了一個前所未有的工具,為影視藝術帶來了影響空前的變革。
第三階段是高級階段,在這一階段,普通個人計算機進入了成熟的多媒體計算機時代。各種計算機外設產品日益齊備,數字影像設備爭奇鬥豔,視音頻處理硬體與軟體技術高度發達,這些都為數字視頻的流行起到了推波助瀾的作用。
根據電視信號的特徵,亮度信號的帶寬是色度信號帶寬的兩倍。因此其數字化時可採用幅色採樣法,即對信號的色差分量的採樣率低於對亮度分量的採樣率。用Y:U:V來表示YUV三分量的採樣比例,則數字視頻的採樣格式分別有4:2:0,4:1:1、4:2:2和4:4:4多種。電視圖像既是空間的函數,也是時間的函數,而且又是隔行掃描式,所以其採樣方式比掃描儀掃描圖像的方式要複雜得多。分量採樣時採到的是隔行樣本點,要把隔行樣本組合成逐行樣本,然後進行樣本點的量化,YUV到RGB色彩空間的轉換等等,最後才能得到數字視頻數據。
為了在PAL、NTSC和 SECAM電視制式之間確定共同的數字化參數,國家無線電諮詢委員會(CCIR)制定了廣播級質量的數字電視編碼標準,稱為CCIR 601標準。在該標準中,對採樣頻率、採樣結構、色彩空間轉換等都作了嚴格的規定,主要有:
1、採樣頻率為f s=13.5MHz
2、解析度與幀率
3、根據f s的採樣率,在不同的採樣格式下計算出數字視頻的數據量:
壓縮技術。
通常用時間碼來識別和記錄視頻數據流中的每一幀,從一段視頻的起始幀到終止幀,其間的每一幀都有一個唯一的時間碼地址。根據動畫和電視工程師協會SMPTE(Society of Motion Picture and Television Engineers)使用的時間碼標準,其格式是:小時:分鐘:秒:幀,或 hours:minutes:seconds:frames。一段長度為00:02:31:15的視頻片段的播放時間為2分鐘31秒15幀,如果以每秒30幀的速率播放,則播放時間為2分鐘31.5秒。
根據電影、錄像和電視工業中使用的幀率的不同,各有其對應的SMPTE標準。由於技術的原因NTSC制式實際使用的幀率是29.97fps而不是30fps,因此在時間碼與實際播放時間之間有0.1%的誤差。為了解決這個誤差問題,設計出丟幀(drop-frame)格式,也即在播放時每分鐘要丟2幀(實際上是有兩幀不顯示而不是從文件中刪除),這樣可以保證時間碼與實際播放時間的一致。與丟幀格式對應的是不丟幀(nondrop-frame)格式,它忽略時間碼與實際播放幀之間的誤差。
視頻壓縮的目標是在儘可能保證視覺效果的前提下減少視頻數據率。視頻壓縮比一般指壓縮后的數據量與壓縮前的數據量之比。由於視頻是連續的靜態圖像,因此其壓縮編碼演演算法與靜態圖像的壓縮編碼演演算法有某些共同之處,但是運動的視頻還有其自身的特性,因此在壓縮時還應考慮其運動特性才能達到高壓縮的目標。在視頻壓縮中常需用到以下的一些基本概念:
在視頻壓縮中有損(Lossy )和無損(Lossless)的概念與靜態圖像中基本類似。無損壓縮也即壓縮前和解壓縮后的數據完全一致。多數的無損壓縮都採用RLE行程編碼演演算法。有損壓縮意味著解壓縮后的數據與壓縮前的數據不一致。在壓縮的過程中要丟失一些人眼和人耳所不敏感的圖像或音頻信息,而且丟失的信息不可恢復。幾乎所有高壓縮的演演算法都採用有損壓縮,這樣才能達到低數據率的目標。丟失的數據率與壓縮比有關,壓縮比越小,丟失的數據越多,解壓縮后的效果一般越差。此外,某些有損壓縮演演算法採用多次重複壓縮的方式,這樣還會引起額外的數據丟失。
幀內(Intraframe)壓縮也稱為空間壓縮(Spatial compression)。當壓縮一幀圖像時,僅考慮本幀的數據而不考慮相鄰幀之間的冗餘信息,這實際上與靜態圖像壓縮類似。幀內一般採用有損壓縮演演算法,由於幀內壓縮時各個幀之間沒有相互關係,所以壓縮后的視頻數據仍可以以幀為單位進行編輯。幀內壓縮一般達不到很高的壓縮。
採用幀間(Interframe)壓縮是基於許多視頻或動畫的連續前後兩幀具有很大的相關性,或者說前後兩幀信息變化很小的特點。也即連續的視頻其相鄰幀之間具有冗餘信息,根據這一特性,壓縮相鄰幀之間的冗餘量就可以進一步提高壓縮量,減小壓縮比。幀間壓縮也稱為時間壓縮(Temporal compression),它通過比較時間軸上不同幀之間的數據進行壓縮。幀間壓縮一般是無損的。幀差值(Frame differencing)演演算法是一種典型的時間壓縮法,它通過比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少數據量。
對稱性(symmetric)是壓縮編碼的一個關鍵特徵。對稱意味著壓縮和解壓縮佔用相同的計算處理能力和時間,對稱演演算法適合於實時壓縮和傳送視頻,如視頻會議應用就以採用對稱的壓縮編碼演演算法為好。而在電子出版和其它多媒體應用中,一般是把視頻預先壓縮處理好,爾後再播放,因此可以採用不對稱(asymmetric)編碼。不對稱或非對稱意味著壓縮時需要花費大量的處理能力和時間,而解壓縮時則能較好地實時回放,也即以不同的速度進行壓縮和解壓縮。一般地說,壓縮一段視頻的時間比回放(解壓縮)該視頻的時間要多得多。例如,壓縮一段三分鐘的視頻片斷可能需要10多分鐘的時間,而該片斷實時回放時間只有三分鐘。
如果使用數字視頻,需要考慮的一個重要因素是文件大小,因為數字視頻文件往往會很大,這將佔用大量硬碟空間。解決這些問題的方法是壓縮—讓文件變小。
使用文本文件,大小問題就顯得不那麼重要了,因為這樣的文件充滿了“空格”,可以大幅度壓縮—一個文本文件至少可以壓縮 90%,壓縮率是相當高的(壓縮率是指已壓縮數據與未壓縮數據之比值)。其他類型的文件,如 MPEG 視頻或 JPEG 照片幾乎無法壓縮,因為它們是用非常緊密的壓縮格式製成的。
數字視頻之所以需要壓縮,是因為它原來的形式佔用的空間大得驚人。視頻經過壓縮后,存儲時會更方便。數字視頻壓縮以後並不影響作品的最終視覺效果,因為它隻影響人的視覺不能感受到的那部分視頻。例如,有數十億種顏色,但是我們只能辨別大約 1024 種。因為我們覺察不到一種顏色與其鄰近顏色的細微差別,所以也就沒必要將每一種顏色都保留下來。還有一個冗餘圖像的問題—如果在一個 60 秒的視頻作品中每幀圖像中都有位於同一位置的同一把椅子,有必要在每幀圖像中都保存這把椅子的數據嗎?
壓縮視頻的過程實質上就是去掉我們感覺不到的那些東西的數據。標準的數字攝像機的壓縮率為 5 比 1,有的格式可使視頻的壓縮率達到 100 比 1。但過分壓縮也不是件好事。因為壓縮得越多,丟失的數據就越多。如果丟棄的數據太多,產生的影響就顯而易見了。過分壓縮的視頻會導致無法辨認。
壓縮視頻的時候,請始終嘗試幾種壓縮設置。目的是儘可能將數據壓縮到最小,當數據丟失到從畫面中能夠明顯看到時,再將壓縮率稍微向回調一點兒。這樣就可以在文件大小和畫面質量之間達到最佳平衡。不要忘記,每個視頻作品都各不相同—有些視頻經過高度壓縮后看上去仍不錯,有些卻不是,所以您需要通過試驗才能得到最好的效果。
位速是指在一個數據流中每秒鐘能通過的信息量。您可能看到過音頻文件用“128–Kbps MP3”或“64–Kbps WMA”進行描述的情形。Kbps 表示“每秒千比特數”,因此數值越大表示數據越多:128–Kbps MP3 音頻文件包含的數據量是 64–Kbps WMA 文件的兩倍,並佔用兩倍的空間。(不過在這種情況下,這兩種文件聽起來沒什麼兩樣。原因是什麼呢?有些文件格式比其他文件能夠更有效地利用數據,64–Kbps WMA 文件的音質與 128–Kbps MP3 的音質相同。)需要了解的重要一點是,位速越高,信息量越大,對這些信息進行解碼的處理量就越大,文件需要佔用的空間也就越多。
為項目選擇適當的位速取決於播放目標:如果您想把製作的 VCD 放在 DVD 播放器上播放,那麼視頻必須是 1150 Kbps,音頻必須是 224 Kbps。典型的 206 MHz Pocket PC 支持的 MPEG 視頻可達到 400 Kbps—超過這個限度播放時就會出現異常。
可以用多種不同的方法和策略壓縮數字媒體文件,使之達到便於管理的大小。下面是幾種最常用的方法:
1.心理聲學音頻壓縮
心理聲學 一詞似乎很令人費解,其實很簡單,它就是指“人腦解釋聲音的方式”。壓縮音頻的所有形式都是用功能強大的演演算法將我們聽不到的音頻信息去掉。例如,如果我扯著嗓子喊一聲,同時輕輕地踏一下腳,您就會聽到我的喊聲,但可能聽不到我踏腳的聲音。通過去掉踏腳聲,就會減少信息量,減小文件的大小,但聽起來卻沒有區別。
2.心理視覺視頻壓縮
心理視覺視頻壓縮與和其對等的音頻壓縮相似。心理視覺模型去掉的不是我們聽不到的音頻數據,而是去掉眼睛不需要的視頻數據。假設有一個在 60 秒的時間內顯示位於同一位置的一把椅子的未經壓縮的視頻片段,在每幀圖像中,都將重複這把椅子的同一數據。如果使用了心理視覺壓縮,就會把一幀圖像中椅子的數據存儲下來,以在接下來的幀中使用。這種壓縮類型—叫做“統計數據冗餘”—是 WMV、MPEG 和其他視頻格式用於壓縮視頻並同時保持高質量的一種數學竅門。
3.無損壓縮
無損 一詞的意思是“不丟失數據”。當一個文件以無損格式壓縮時,全部數據仍然存在,這與壓縮文檔很相似—文檔文件雖然變小了,但解壓縮之後每一個字都還存在。您可以反覆保存無損視頻而不會丟失任何數據—這種壓縮只是將數據壓縮到更小的空間。無損壓縮節省的空間較少,因為在不丟失信息的前提下,只能將數據壓縮到這一程度。
4.有損壓縮
有損壓縮丟棄一些數據,以便獲得較低的位速。心理聲學壓縮和心理視覺壓縮是有損壓縮技術,壓縮結果是文件變小,但包含的源數據也更少。每次以有損文件格式保存文件時,都會損失很多數據—即使用同一種格式保存也是如此。一條好的經驗是,只在項目的最後階段才使用有損壓縮。
用於傳輸1.5Mbps數據傳輸率的數字存儲媒體運動圖像及其伴音的編碼,經過MPEG-1標準壓縮后,視頻數據壓縮率為1/100-1/2 00,音頻壓縮率為1/6.5。MPEG-1提供每秒30幀352*240解析度的圖像,當使用合適的壓縮技術時,具有接近家用視頻制式(VHS)錄像帶的質量。MPEG-1允許超過70分鐘的高質量的視頻和音頻存儲在一張CD-ROM盤上。VCD採用的就是MPEG-1的標準,該標準是一個面向家庭電視質量級的視頻、音頻壓縮標準。
主要針對高清晰度電視(HDTV)的需要,傳輸速率為10Mbps,與MPEG-1兼容,適用於1.5-60Mbps甚至更高的編碼範圍。MPEG-2有每秒30幀704*480的解析度,是MPEG-1播放速度的四倍。它適用於高要求的廣播和娛樂應用程序,如:DSS衛星廣播和DVD,MPEG-2是家用視頻制式(VHS)錄像帶解析度的兩倍。
即數/模轉裝換器,一種將數字信號轉換成模擬信號的裝置。DAC的位數越高,信號失真就越小。圖像也更清晰穩定。
AVI是將語音和影像同步組合在一起的文件格式。它對視頻文件採用了一種有損壓縮方式,但壓縮比較高,因此儘管面面質量不是太好,但其應用範圍仍然非常廣泛。AVI支持256色和RLE壓縮。AVI信息主要應用在多媒體光碟上,用來保存電視、電影等各種影像信息。
對一種顏色進行編碼的方法統稱為“顏色空間”或“色域”。“顏色空間”都可定義成一個固定的數字或變數。RGB(紅、綠、藍)只是眾多顏色空間的一種。採用這種編碼方法,每種顏色都可用三個變數來表示-紅色綠色以及藍色的強度。記錄及顯示彩色圖像時,R GB是最常見的一種方案。但是,它缺乏與早期黑白顯示系統的良好兼容性。因此,件多電子電器廠商普遍採用的做法是,將RGB轉換成YUV 顏色空間,以維持兼容,再根據需要換回RGB格式,以便在電腦顯示器上顯示彩色圖形。
YUV(亦稱YCrCb)是被歐洲電視系統所採用的一種顏色編碼方法(屬於PAL)。YUV主要用於優化彩色視頻信號的傳輸,使其向後兼容老式黑白電視。與R GB視頻信號傳輸相比,它最大的優點在於只需佔用極少的帶寬(RGB要求三個獨立的視頻信號同時傳輸)。其中“Y”表示明亮度(Lumina nce或Luma),也就是灰階值;而“U”和“V”表示的則是色度(Chrominance或Chroma),作用是描述影像色彩及飽和度,用於指定像素的顏色。通過R GB輸入信號來創建的,方法是將RGB信號的特定部分疊加到一起。“色度”則定義了顏色的兩個方面-色調與飽和度,分別用Cr和CB來表示。其中,C r反映了GB輸入信號紅色部分與RGB信號亮度值之間的差異。而CB反映的是RGB輸入信號藍色部分與RGB信號亮度值之同的差異。
NTSC和PAL彩色視頻信號是這樣構成的--首先有一個基本的黑白視頻信號,然後在每個水平同步脈衝之後,加入一個顏色脈衝和一個亮度信號。因為彩色信號是由多種數據“疊加”起來的,故稱之為“複合視頻”。S -Video則是一種信號質量更高的視頻介面,它取消了信號疊加的方法,可有效避免一些無謂的質量損失。它的 功能是將RGB三原色和亮度進行分離處理。
基帶視頻是一種簡單的模擬信號,由視頻模擬數據和視頻同步數據構成,用於接收端正確地顯示圖像。信號的細節取決於應用的視頻標準或者"制式"--NTSC(美國全國電視標準委員會,National Television Standards Committee)、PAL(逐行倒相,Phase Alternate Line)以及SECAM(順序傳送與存儲彩色電視系統,法國採用的一種電視制式,SEquential Couleur Avec Memoire)。在PC領域,由於使用的制式不同,存在不兼容的情況。就拿解析度來說,有的制式每幀有625線(50Hz),有的則每幀只有525線(60 Hz)。後者是北美和日本採用的標準,統稱為NTSC。通常,一個視頻信號是由一個視頻源生成的,比如攝像機、VCR或者電視調諧器等。為傳輸圖像,視頻源首先要生成-個垂直同步信號(V SYNC)。這個信號會重設接收端設備(PC顯示器),保征新圖像從屏幕的頂部開始顯示。發出VSYNC信號之後,視頻源接著掃描圖像的第一行。完成後,視頻源又生成一個水平同步信號,重設接收端,以便從屏幕左側開始顯示下一行。並針對圖像的每一行,都要發出一條掃描線,以及一個水平同步脈衝信號。
另外,NTSC標準還規定視頻源每秒鐘需要發送30幅完整的圖像(幀)。假如不作其它處理,閃爍現象會非常嚴重。為解決這個問題,每幀又被均分為兩部分,每部分2 62.5行。一部分全是奇數行,另一部分則全是偶數行。顯示的時候,先掃描奇數行,再掃描偶數行,就可以有效地改善圖像顯示的穩定性,減少閃爍。SECAM制式,三種制式尚無法統一。中國採用的是PAL-D制式。
Ultra6cale是Rockwell(洛克威爾)採用的一種掃描轉換技術。可對垂直和水平方向的顯示進行任意縮 放。在電視這樣的隔行掃描設備上顯示逐行視頻時,整個過程本身就己非常麻煩。而採用 UltraScale技木,甚至還能像在電腦顯示器上那祥,迸行類似的縱橫方向自由伸縮。