H.264
H.264/AVC 是ITU-T VCEG 和ISO/IEC MPEG共同開(kāi)發(fā)的視頻處理標準,ITU-T作為標準建議H.264,ISO/IEC作為國際標準14496-10(MPEG-4 第10部分)高級視頻編碼(AVC)。
MPEG-2視頻編碼標準(又稱(chēng)為ITU-T H.262[2])已有10年的歷史了,由MPEG-1擴充而來(lái),支持隔行掃描。使用十分廣泛,幾乎用于所有的數字電視系統,適合標清和高清電視,適合各種媒體傳輸,包括衛星、有線(xiàn)、地面等,都能有效地傳輸。然而,類(lèi)似xDSL、UMTS(通用移動(dòng)系統)技術(shù)只能提供較小的傳輸速率,甚至DVB-T,也沒(méi)有足夠的頻段可用,提供的節目很有限,隨著(zhù)高清電視的引入,迫切需要高壓縮比技術(shù)的出現。
應用于電信的視頻編碼經(jīng)歷了ITUT H.261、H.262(MPEG-2)、H.263、H.263+、H.263++,提供的服務(wù)從ISDN和T1/E1到PSTN、移動(dòng)無(wú)線(xiàn)網(wǎng)和LAN/INTERNET網(wǎng)。
最近MPEG-4第二部分進(jìn)入了實(shí)用領(lǐng)域,提供了視頻形狀編碼,目標是與MPEG-2一樣獲得廣泛的數字電視應用。
1998年,視頻編碼專(zhuān)家組(VCEG-ITU-T SG16Q.6)啟動(dòng)了H.26L工程,旨在研制出新的壓縮標準,與以前的任何標準相比,效率要提高一倍,同時(shí)具有簡(jiǎn)單、直觀(guān)的視頻編碼技術(shù),網(wǎng)絡(luò )友好的視頻描述,適合交互和非交互式應用(廣播、存儲、流煤體)。
2001年12月,VCEG和運動(dòng)圖像專(zhuān)家組(MPEG-ISO/IEC JTC 1/SC 29/WG 11)組成了聯(lián)合視頻組(JVT,Joint Video Team),研究新的編碼標準H.264/AVC,該標準于2003年3月正式獲得批準。
視頻的各種應用必須通過(guò)各種網(wǎng)絡(luò )傳送,這要求一個(gè)好的視頻方案能處理各種應用和網(wǎng)絡(luò )接口。H.264/AVC為了解決這個(gè)問(wèn)題,提供了很多靈活性和客戶(hù)化特性。H.264/AVC的設計方案包含兩個(gè)層次,視頻編碼層(VCL,Video Coding Layer)和網(wǎng)絡(luò )抽象層(NAL,Network Abstraction Layer)。視頻編碼層主要致力于有效地表示視頻內容,網(wǎng)絡(luò )抽象層格式化VCL視頻表示,提供頭部信息,適合多種傳輸和存儲媒體。
VCL的設計同以前的ITU-T和 ISO/IEC JTC一樣,基于塊的混合視頻編碼方法?;镜脑淳幋a算法是:利用時(shí)間統計的相關(guān)性,開(kāi)發(fā)幀間預測算法;利用預測殘留變換編碼,開(kāi)發(fā)空間統計的相關(guān)性。在提高編碼效率方面,沒(méi)有一個(gè)單一的算法做出特別的貢獻,而是大量的小的改善算法綜合產(chǎn)生的結果。
一、主要特性
1、H.264/AVC相對以前的編碼方法,以MPEG-2為例,在圖像內容預測方面提高編碼效率,改善圖像質(zhì)量的主要特點(diǎn)如下:
● 可變塊大小運動(dòng)補償: 選擇運動(dòng)補償大小和形狀比以前的標準更靈活,最小的亮度運動(dòng)補償塊可以小到4×4。
●1/4采樣精度運動(dòng)補償:以前的標準最多1/2精度運動(dòng)補償,首次1/4采樣精度運動(dòng)補償出現在MPEG-4第二部分高級類(lèi)部分,但H.264/AVC大大減少了內插處理的復雜度。
●運動(dòng)矢量可跨越圖像邊界:在以前的標準中,運動(dòng)矢量限制在已編碼參考圖像的內部。圖像邊界外推法作為可選技術(shù)首次出現在H.263中。
●多參考圖像運動(dòng)補償:在MPEG-2及以前的標準中,P幀只使用一幀,B幀只使用兩幀圖像進(jìn)行預測。H.264/AVC使用高級圖像選擇技術(shù),可以用以前已編碼過(guò)且保留在緩沖區的大量的圖像進(jìn)行預測,大大提高了編碼效率。
●消除參考圖像順序和顯示圖像順序的相關(guān)性:在以前的標準中,參考圖像順序依賴(lài)顯示圖像順序,H.264/AVC消除了該限制,可以任意選擇。
● 消除參考圖像與圖像表示方法的限制:在以前的標準中,B幀圖像不能作為預測圖像,H.264/AVC在很多情況可以利用B幀圖像作為參考。
● 加權預測:H.264/AVC采用新技術(shù),允許加權運動(dòng)補償預測和偏移一定量。在淡入淡出場(chǎng)景中該技術(shù)極大提高編碼效率,該技術(shù)還可用于其他多種用途。
● 改善“跳過(guò)”和“直接”運動(dòng)推測:在以前的標準中,預測編碼圖像的“跳過(guò)”區不能有運動(dòng)。當編碼有全局運動(dòng)的圖像時(shí),該限制非常有害。H.264/AVC對“跳過(guò)”區的運動(dòng)采用推測方法。對雙預測的B幀圖像,采用高級運動(dòng)預測方法,稱(chēng)為“直接”運動(dòng)補償,進(jìn)一步改善編碼效率。
● 幀內編碼直接空間預測:將編碼圖像邊沿進(jìn)行外推應用到當前幀內編碼圖像的預測。
● 循環(huán)去塊效應濾波器:基于塊的視頻編碼在圖像中存在塊效應,主要來(lái)源于預測和殘余編碼。自適應去塊效應濾波技術(shù)是非常著(zhù)名的技術(shù),能有效消除塊效應,改善視頻的主觀(guān)和客觀(guān)質(zhì)量。
2、除改善預測方法外,其他改善編碼效率的特性如下:
● 小塊變換:以前的標準變換的塊都是8×8,H.264/AVC主要使用4×4塊變換,使編碼器表示信號局部適應性更好,更適合預測編碼,減少“鈴”效應。另外圖像邊界需要小塊變換。
● 分級塊變換:H.264/AVC通常使用小塊變換,但有些信號包含足夠的相關(guān)性,要求以大塊表示,H.264/AVC有兩種方式實(shí)現。低頻色度信號可用8×8,;對幀內編碼,可使用特別的編碼類(lèi)型,低頻亮度信號可用16×16塊。
● 短字長(cháng)變換: 所有以前標準使用的變換要求32位運算,H.264/AVC只使用16位運算。
● 完全匹配反變換:所有以前標準反變換和變換之間存在一定容限的誤差,因此,每個(gè)解碼器輸出視頻信號都不相同,產(chǎn)生小的漂移,最終影響圖像的質(zhì)量,H.264/AVC實(shí)現了完全匹配。
● 基于上下文的熵編碼:H.264/AVC使用兩種熵編碼方法,CAVLC(上下文自適應的可變長(cháng)編碼)和CABAC(上下文自適應二進(jìn)制算術(shù)編碼),兩種都是基于上下文的熵編碼技術(shù)。
3、H.264/AVC具有強大的糾錯功能和各種網(wǎng)絡(luò )環(huán)境操作靈活性,主要特性如下:
● 參數集結構:H.264/AVC參數集結構設計了強大、有效的傳輸頭部信息。在以前的標準中,如果少數幾位關(guān)鍵信息丟失,可能解碼器產(chǎn)生嚴重解碼錯誤。H.264/AVC采用很靈活、特殊的方式,分開(kāi)處理關(guān)鍵信息,能在各種環(huán)境下可靠傳送。
● NAL單元語(yǔ)法結構:H.264/AVC中的每一個(gè)語(yǔ)法結構放置在稱(chēng)為NAL的單元中,以前的標準采用強制性特定的位流接口。NAL單元語(yǔ)法結構允許很自由的客戶(hù)化,幾乎適合所有的網(wǎng)絡(luò )接口。
● 靈活的像條大?。涸贛PEG-2中,規定了嚴格的像條結構,頭部數據量大,降低預測效率,編碼效率低。在H.264/AVC可采用非常靈活的像條大小。
● 靈活宏塊排序(FMO):H.264/AVC可以將圖像劃分為像條組,又稱(chēng)為圖像區,每個(gè)像條可以獨立解碼。FMO通過(guò)管理圖像區之間的關(guān)系,具有很強的抗數據丟失能力。
● 任意像條排序:因為每個(gè)像條幾乎可以獨立解碼,所以像條可以按任意順序發(fā)送和接收,在實(shí)時(shí)應用中,可以改善端到端的延時(shí)特性,特別適合于接收順序和發(fā)送順序不能對應的網(wǎng)絡(luò )中,如使用INTERNET網(wǎng)絡(luò )協(xié)議的應用。
● 冗余圖像:為提高抗數據丟失的能力,H.264/AVC設計中包含一種新的能力,允許編碼器發(fā)送圖像區的冗余表示,當圖像區的主表示丟失時(shí)仍可以正確解碼。
● 數據劃分:視頻流中的編碼信息的重要性不同,有些信息(如運動(dòng)矢量、預測信息等)比其他信息更為重要。H.264/AVC可以根據每個(gè)像條語(yǔ)法元素的范疇,將像條語(yǔ)法劃分為3部分,分開(kāi)傳送。
二、網(wǎng)絡(luò )層
NAL規范視頻數據的格式,主要是提供頭部信息,以適合各種媒體的傳輸和存儲。NAL支持各種網(wǎng)絡(luò ),包括:
● 任何使用RTP/IP協(xié)議的實(shí)時(shí)有線(xiàn)和無(wú)線(xiàn)Internet 服務(wù)。
● 作為MP4文件存儲和多媒體信息文件服務(wù)。
● MPEG-2系統。
● 其他網(wǎng)。
1、NAL 單元
編碼的視頻流組織成NAL單元,視頻數據放置在網(wǎng)絡(luò )單元中傳輸,每個(gè)網(wǎng)絡(luò )單元包含整數個(gè)字節,第一個(gè)字節是頭部信息,指示NAL單元的數據類(lèi)型,其余是凈荷。
凈荷數據與仿真預防字節做交織處理,仿真預防字節是特殊值字節,防止偶然在凈荷中出現同步字節圖樣。
NAL規定一種通用的格式,既適合面向包傳輸,也適合流傳送。實(shí)際上,包傳輸和流傳輸的方式是相同的,不同之處是流傳輸前面增加了一個(gè)起始碼前綴。
2、NAL單元在字節流中的應用
類(lèi)似H.320和MPEG-2/H.222.0等傳輸系統,傳輸NAL作為有序連續字節或比特流,同時(shí)要依靠數據本身識別NAL單元邊界。在這樣的應用系統中,H.264/AVC規范定義了字節流格式,每個(gè)NAL單元前面增加3個(gè)字節的前綴,即同步字節。在比特流應用中,每個(gè)圖像需要增加一個(gè)附加字節作為邊界定位。還有一種可選特性,在字節流中增加附加數據,用做擴充發(fā)送數據量,能實(shí)現快速邊界定位,恢復同步。
3、NAL單元在面向包傳送中的應用
在類(lèi)似Internet/RTP面向包傳送協(xié)議系統中,包結構中包含包邊界識別字節,在這種情況下,不需要同步字節。
4、VCL和非VCL的NAL單元
NAL單元分為VCL和非VCL兩種,VCL NAL單元包含視頻圖像采樣信息,非VCL包含各種有關(guān)的附加信息,例如參數集(頭部信息,應用到大量的VCL NAL單元)、提高性能的附加信息、定時(shí)信息等。
5、參數集
參數集是很少變化的信息,用于大量VCL NAL單元的解碼,分為兩種類(lèi)型:
● 序列參數集,作用于一串連續的視頻圖像,即視頻序列。
● 圖像參數集,作用于視頻序列中的一個(gè)或多個(gè)個(gè)別的圖像。
序列和圖像參數集機制,減少了重復參數的傳送,每個(gè)VCL NAL單元包含一個(gè)標識,指向有關(guān)的圖像參數集,每個(gè)圖像參數集包含一個(gè)標識,指向有關(guān)的序列參數集的內容,因此,只用少數的指針信息,引用大量的參數,大大減少每個(gè)VCL NAL單元重復傳送的信息。
序列和圖像參數集可以在發(fā)送VCL NAL單元以前發(fā)送,并且重復傳送,大大提高糾錯能力。序列和圖像參數集可以在“帶內”,也可以用更為可靠的其他“帶外”通道傳送。
6、存儲單元
一組指定格式的NAL單元稱(chēng)為存儲單元,每個(gè)存儲單元對應一個(gè)圖像。每個(gè)存儲單元包含一組VCL NAL單元,組成一個(gè)主編碼圖像,VCL NAL單元由表示視頻圖像采樣的像條所組成。存儲單元前面可以加一個(gè)前綴,分界存儲單元,附加增強信息(SEI)(如圖像定時(shí)信息)也可以放在主編碼圖像的前面。
主編碼圖像后附加的VCL NAL單元,包含同一圖像的冗余表示,稱(chēng)為冗余編碼圖像,當主編碼圖像數據丟失或損壞時(shí),可用冗余編碼圖像解碼。
7、編碼視頻序列
一個(gè)編碼視頻序列由一串連續的存儲單元組成,使用同一序列參數集。每個(gè)視頻序列可獨立解碼。編碼序列的開(kāi)始是即時(shí)刷新存儲單元(IDR)。IDR是一個(gè)I幀圖像,表示后面的圖像不用參考以前的圖像。一個(gè)NAL單元流可包含一個(gè)或更多的編碼視頻序列。
MPEG-4標準
運動(dòng)圖像專(zhuān)家組MPEG 于1999年2月正式公布了MPEG-4(ISO/IEC14496)標準第一版本。同年年底MPEG-4第二版亦告底定,且于2000年年初正式成為國際標準。
MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮算法,它是針對數字電視、交互式繪圖應用(影音合成內容)、交互式多媒體(WWW、資料擷取與分散)等整合及壓縮技術(shù)的需求而制定的國際標準。MPEG-4標準將眾多的多媒體應用集成于一個(gè)完整的框架內,旨在為多媒體通信及應用環(huán)境提供標準的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應用領(lǐng)域普遍采用的統一數據格式。
MPEG-4的編碼理念是:MPEG-4標準同以前標準的最顯著(zhù)的差別在于它是采用基于對象的編碼理念,即在編碼時(shí)將一幅景物分成若干在時(shí)間和空間上相互聯(lián)系的視頻音頻對象,分別編碼后,再經(jīng)過(guò)復用傳輸到接收端,然后再對不同的對象分別解碼,從而組合成所需要的視頻和音頻。這樣既方便我們對不同的對象采用不同的編碼方法和表示方法,又有利于不同數據類(lèi)型間的融合,并且這樣也可以方便的實(shí)現對于各種對象的操作及編輯。例如,我們可以將一個(gè)卡通人物放在真實(shí)的場(chǎng)景中,或者將真人置于一個(gè)虛擬的演播室里,還可以在互聯(lián)網(wǎng)上方便的實(shí)現交互,根據自己的需要有選擇的組合各種視頻音頻以及圖形文本對象。
MPEG-4系統的一般框架是:對自然或合成的視聽(tīng)內容的表示;對視聽(tīng)內容數據流的管理,如多點(diǎn)、同步、緩沖管理等;對靈活性的支持和對系統不同部分的配置。
與MPEG-1、MPEG-2相比,MPEG-4具有如下獨特的優(yōu)點(diǎn):
(1) 基于內容的交互性
MPEG-4提供了基于內容的多媒體數據訪(fǎng)問(wèn)工具,如索引、超級鏈接、上下載、刪除等。利用這些工具,用戶(hù)可以方便地從多媒體數據庫中有選擇地獲取自己所需的與對象有關(guān)的內容,并提供了內容的操作和位流編輯功能,可應用于交互式家庭購物,淡入淡出的數字化效果等。MPEG-4提供了高效的自然或合成的多媒體數據編碼方法。它可以把自然場(chǎng)景或對象組合起來(lái)成為合成的多媒體數據。
(2)高效的壓縮性
MPEG-4基于更高的編碼效率。同已有的或即將形成的其它標準相比,在相同的比特率下,它基于更高的視覺(jué)聽(tīng)覺(jué)質(zhì)量,這就使得在低帶寬的信道上傳送視頻、音頻成為可能。同時(shí)MPEG-4還能對同時(shí)發(fā)生的數據流進(jìn)行編碼。一個(gè)場(chǎng)景的多視角或多聲道數據流可以高效、同步地合成為最終數據流。這可用于虛擬三維游戲、三維電影、飛行仿真練習等
(3)通用的訪(fǎng)問(wèn)性
MPEG-4提供了易出錯環(huán)境的魯棒性,來(lái)保證其在許多無(wú)線(xiàn)和有線(xiàn)網(wǎng)絡(luò )以及存儲介質(zhì)中的應用,此外,MPEG-4還支持基于內容的的可分級性,即把內容、質(zhì)量、復雜性分成許多小塊來(lái)滿(mǎn)足不同用戶(hù)的不同需求,支持具有不同帶寬,不同存儲容量的傳輸信道和接收端。
這些特點(diǎn)無(wú)疑會(huì )加速多媒體應用的發(fā)展,從中受益的應用領(lǐng)域有:因特網(wǎng)多媒體應用;廣播電視;交互式視頻游戲;實(shí)時(shí)可視通信;交互式存儲媒體應用;演播室技術(shù)及電視后期制作;采用面部動(dòng)畫(huà)技術(shù)的虛擬會(huì )議;多媒體郵件;移動(dòng)通信條件下的多媒體應用;遠程視頻監控;通過(guò)ATM網(wǎng)絡(luò )等進(jìn)行的遠程數據庫業(yè)務(wù)等。MPEG-4主要應用如下:
(1)應用于因特網(wǎng)視音頻廣播
由于上網(wǎng)人數與日俱增,傳統電視廣播的觀(guān)眾逐漸減少,隨之而來(lái)的便是廣告收入的減少,所以現在的固定式電視廣播最終將轉向基于TCP/IP的因特網(wǎng)廣播,觀(guān)眾的收看方式也由簡(jiǎn)單的遙控器選擇頻道轉為網(wǎng)上視頻點(diǎn)播。視頻點(diǎn)播的概念不是先把節目下載到硬盤(pán),然后再播放,而是流媒體視頻(streaming video),點(diǎn)擊即觀(guān)看,邊傳輸邊播放。
現在因特網(wǎng)中播放視音頻的有:Real Networks公司的 Real Media,微軟公司的 Windows Media,蘋(píng)果公司的 QuickTime,它們定義的視音頻格式互不兼容,有可能導致媒體流中難以控制的混亂,而MPEG-4為因特網(wǎng)視頻應用提供了一系列的標準工具,使視音頻碼流具有規范一致性。因此在因特網(wǎng)播放視音頻采用MPEG-4,應該說(shuō)是一個(gè)安全的選擇。
(2)應用于無(wú)線(xiàn)通信
MPEG-4高效的碼率壓縮,交互和分級特性尤其適合于在窄帶移動(dòng)網(wǎng)上實(shí)現多媒體通信,未來(lái)的手機將變成多媒體移動(dòng)接收機,不僅可以打移動(dòng)電視電話(huà)、移動(dòng)上網(wǎng),還可以移動(dòng)接收多媒體廣播和收看電視。
(3)應用于靜止圖像壓縮
靜止圖像(圖片)在因特網(wǎng)中大量使用,現在網(wǎng)上的圖片壓縮多采用JPEG技術(shù)。MPEG-4中的靜止圖像(紋理)壓縮是基于小波變換的,在同樣質(zhì)量條件下,壓縮后的文件大小約是JPEG壓縮文件的十分之一。把因特網(wǎng)上使用的JPEG圖片轉換成MPEG-4格式,可以大幅度提高圖片在網(wǎng)絡(luò )中的傳輸速度。
(4)應用于電視電話(huà)
傳統用于窄帶電視電話(huà)業(yè)務(wù)的壓縮編碼標準,如H261,采用幀內壓縮、幀間壓縮、減少象素和抽幀等辦法來(lái)降低碼率,但編碼效率和圖像質(zhì)量都難以令人滿(mǎn)意。MPEG-4的壓縮編碼可以做到以極低碼率傳送質(zhì)量可以接受的聲像信號,使電視電話(huà)業(yè)務(wù)可以在窄帶的公用電話(huà)網(wǎng)上實(shí)現。
(5)應用于計算機圖形、動(dòng)畫(huà)與仿真
MPEG-4特殊的編碼方式和強大的交互能力,使得基于MPEG-4的計算機圖形和動(dòng)畫(huà)可以從各種來(lái)源的多媒體數據庫中獲取素材,并實(shí)時(shí)組合出所需要的結果。因而未來(lái)的計算機圖形可以在MPEG-4語(yǔ)法所允許的范圍內向所希望的方向無(wú)限發(fā)展,產(chǎn)生出今天無(wú)法想象的動(dòng)畫(huà)及仿真效果。
(6)應用于電子游戲
MPEG-4可以進(jìn)行自然圖像與聲音同人工合成的圖像與聲音的混合編碼,在編碼方式上具有前所未有的靈活性,并且能及時(shí)從各種來(lái)源的多媒體數據庫中調用素材。這可以在將來(lái)產(chǎn)生象電影一樣的電子游戲,實(shí)現極高自由度的交互式操作。
聯(lián)系客服