曰韩美女乱婬AAAA片软件_ 基于可編程處理器的H.264實(shí)現

基于可編程處理器的H.264實(shí)現

一、引言
　　隨著(zhù)多媒體編碼技術(shù)的發(fā)展，視頻壓縮標準在很多領(lǐng)域都得到了成功應用，如VCD（MPEG-1）、視頻會(huì )議（H.263）、DVD（MPEG-2）、機頂盒（MPEG-2）等等。

　　而網(wǎng)絡(luò )帶寬的不斷提升（ADSL接入從以前的512kbit/s提升到現在的1Mbit/s，不久還將升到2Mbit/s，甚至更高）和高效視頻壓縮技術(shù)的發(fā)展使得人們逐漸把關(guān)注的焦點(diǎn)轉移到了寬帶網(wǎng)絡(luò )數字電視（IPTV）、流媒體等基于傳輸的業(yè)務(wù)上來(lái)。帶寬的增加為流式媒體的發(fā)展鋪平了道路，而高效的視頻壓縮標準的出臺則是流媒體技術(shù)發(fā)展的關(guān)鍵。

　　H.264是ISO/IEC MPEG聯(lián)合ITU-T VCEG成立的聯(lián)合視頻組（JVT）制定的一個(gè)全新的標準。相對于H.263+和MPEG-4（Simple Profile），H.264的碼率平均降低了50%，以700kbit/s的碼流速率提供了接近DVD的畫(huà)面質(zhì)量。

　　H.264能面向各種應用場(chǎng)合（從低比特率到高比特率），其算法本身也包含了豐富的基于壓縮和網(wǎng)絡(luò )傳輸的各種編碼選項?？删幊烫幚砥鞴逃械撵`活性決定其為H.264的理想實(shí)現平臺。眾所周知，H.264的高效性是建立在其實(shí)現的高復雜度基礎上的，就其Baseline而言，解碼器復雜度將是H.263解碼器的3倍左右，而編碼器的復雜度更是高達10多倍。近年來(lái)，處理器芯片性能在不斷地提高，其中包括越來(lái)越高的處理器主頻，強大的運算功能以及豐富的外設。但是與當今日新月異的半導體技術(shù)、工藝相比，由于片上系統（SoC）的需求不斷提高，處理器的體系結構仍具有極大的發(fā)展空間。特別是H.264作為一個(gè)前景廣闊而又具有挑戰性的新生“事物”，必將帶動(dòng)新一輪處理器架構的革新。而算法和架構的互動(dòng)將會(huì )成為這一輪革新的強有力的驅動(dòng)。

二、應用：處理器架構革新的驅動(dòng)力

　　事實(shí)上，處理器架構一直是在應用的驅動(dòng)下發(fā)展、進(jìn)步的。

1. DSP在數字信號處理算法驅動(dòng)下的產(chǎn)生、發(fā)展

　　在過(guò)去的幾十年中，隨著(zhù)半導體工藝與集成電路設計技術(shù)的逐漸發(fā)展，微處理器逐漸在工業(yè)控制等領(lǐng)域得到應用，簡(jiǎn)單的智能控制與少量計算任務(wù)的實(shí)現，都是由我們通常所謂的單片機來(lái)完成的。單片機雖然集成了CPU、RAM、ROM（EPROM或EEPROM）、時(shí)鐘、定時(shí)/計數器、多種功能的串行和并行I/O口等部件，但是其面向的應用場(chǎng)合主要是工業(yè)控制中各種事件的管理調度等，運算處理能力不足一直是它的缺陷。

　　特別是隨著(zhù)信息化的進(jìn)程和信號處理理論與算法等的迅速發(fā)展，需要處理的數據量越來(lái)越大，對實(shí)時(shí)性和精度的要求越來(lái)越高，單片機越來(lái)越難以滿(mǎn)足不斷上升的要求，DSP應運而生。

　　DSP的產(chǎn)生背景決定了其架構的重點(diǎn)更多的是對特定的數字信號處理算法的強化支持。典型的數字信號處理算法，例如在有限長(cháng)沖擊響應濾波器（FIR）的實(shí)現中，需要在系數和輸入樣本的滑動(dòng)窗口間作乘法，然后將所有的乘積進(jìn)行累加。類(lèi)似的運算在數字信號處理過(guò)程中大量地重復發(fā)生，使得為此設計的器件必須提供專(zhuān)門(mén)的支持。通常DSP處理器使用專(zhuān)門(mén)的硬件來(lái)實(shí)現單周期乘法，并且還增加了特殊的累加器寄存器來(lái)處理多個(gè)乘積的和。為了充分體現專(zhuān)門(mén)的乘法累加硬件的好處，幾乎所有的DSP的指令集都包含有顯式的MAC指令。另外，為了提高特定算法的實(shí)現效率，一些DSP處理器有專(zhuān)門(mén)的硬件來(lái)實(shí)現特殊的尋址模式，例如，模塊（循環(huán)）尋址（對實(shí)現數字濾波器延時(shí)線(xiàn)很有用）、位倒序尋址（對FFT很有用）。這些特殊的尋址模式如果用軟件來(lái)實(shí)現，則會(huì )大大降低系統的性能。

　　為了提高每個(gè)指令周期內數據（與指令）的吞吐量，大多數DSP采用了改進(jìn)的哈佛結構，并且使用了多個(gè)片內存儲器和多組總線(xiàn)。此外，DSP處理器幾乎都不具備數據高速緩存，這是因為DSP的典型數據是數據流。也就是說(shuō)，DSP處理器對每個(gè)數據樣本做計算后就丟棄了，幾乎不再重復使用。另外，DSP算法中，通常大多數的處理時(shí)間是在執行較小的循環(huán)上，因此，大多數DSP設有專(zhuān)門(mén)的硬件用于零開(kāi)銷(xiāo)循環(huán)。所謂零開(kāi)銷(xiāo)循環(huán)是指處理器在執行循環(huán)時(shí)，不需要進(jìn)行循環(huán)計數器的檢查、條件跳轉以及修改計數器值等操作，從而大大增強了DSP的性能。

　　這些結構上的改進(jìn)極大地提高了DSP在運算密集型應用中的處理能力。但隨著(zhù)新的算法與標準的不斷出現，對處理器運算能力的要求仍在不斷提高。為了達到實(shí)際應用的需要，處理器的架構仍然在不斷的發(fā)展中。

2. 超標量、VLIW處理器架構

　　高性能DSP在應用中取得了巨大成功，其成功的基礎在于半導體工藝的不斷進(jìn)步使其性能不斷提高，從而使其應用領(lǐng)域越來(lái)越廣泛。但其在市場(chǎng)上真正的活力卻是其可編程特性。只要到自己購買(mǎi)商品的廠(chǎng)商網(wǎng)站下載更新軟件就能“免費”升級消費品，還有什么事情比這更讓消費者滿(mǎn)意呢？有了消費者的支持，企業(yè)當然能長(cháng)盛不衰。

　　因此，人們從來(lái)沒(méi)有停止過(guò)更高性能處理器的架構研究。這其中就有多發(fā)射的超標量結構（Superscalar）和將若干指令組合在一起的超長(cháng)指令字結構（VLIW），共同之處都是為了開(kāi)發(fā)指令級并行性（ILP，Instruction Level Parallel）。從提高處理器性能的出發(fā)點(diǎn)來(lái)看，其思想的先進(jìn)性不容置疑。但在2004年的消費電子領(lǐng)域，呼聲更高的似乎是另一種架構：RISC（MCU）/DSP架構。典型的是ADI的Blackfin系列處理器，其重要特色就是在結構中充分體現對媒體應用（特別是視頻）算法的支持，另外在售價(jià)、功耗方面也具有很大優(yōu)勢。筆者認為，這些正是超標量與VLIW架構的處理器所欠缺的。

三、H.264：新一輪媒體處理器架構革新

　　目前，結合視頻處理算法，多項有效技術(shù)被采用。

1. SIMD技術(shù)：數據可并行處理特性

　　為提高通用DSP的媒體處理能力，各大DSP廠(chǎng)商都在原有架構基礎上進(jìn)行了媒體處理指令集擴展。其中，SIMD是被人們所熟知，也是最為成功的一項技術(shù)（圖1）?，F已幾乎被所有面向媒體處理相關(guān)領(lǐng)域的處理器所采用。SIMD技術(shù)通常通過(guò)內核中內置多個(gè)運算單元以及相應的控制、數據通路來(lái)實(shí)現，反映給用戶(hù)的是提供了支持SIMD操作的指令集。

　　SIMD技術(shù)利用了視頻算法：DCT/IDCT，ME/MC（運動(dòng)估計、運動(dòng)補償）等算法模塊中的可并行特性。

2. 數據預取技術(shù)：數據準備、運算寫(xiě)回并行操作

　　在這里，我們把數據處理分如下三個(gè)步驟：（1）數據準備；（2）數據處理；（3）數據寫(xiě)回。

　　事實(shí)上，在視頻處理中，（1）和（3）有兩層含義。第一層指的是片內、片外的數據讀寫(xiě)操作。理想情況是盡量減少數據讀寫(xiě)的時(shí)間（往往把這部分看成是額外開(kāi)銷(xiāo)）。從實(shí)踐上看，可以通過(guò)DMA機制實(shí)現DSP數據處理和片內外數據調度的并行處理。第二層指如何取得SIMD處理中的各個(gè)子數據，例如圖中（X3，X2，X1，X0）和（Y3，Y2，Y1，Y0）的獲取以及操作（具體隨OP不同而異）的并行處理。實(shí)際上，DSP（區別于單片機與RISC）中基于存儲器的尋址方式就是一種節省數據存儲器訪(fǎng)問(wèn)時(shí)間的有效技術(shù)。真正意義上的指令中操作數裝載和并行運算的功能在Blackfin系列處理器中有了很好的體現。

　　而上述兩層含義的思想卻是相同的，那就是數據處理和數據存取的并行處理（圖2）：處理當前數據的同時(shí)，把下次處理的數據預?。ㄗx）進(jìn)來(lái)或把上次計算結果寫(xiě)回存儲器。

　　視頻處理是一個(gè)以數據處理為主的系統，結合視頻處理算法，實(shí)現指令操作數裝載和并行運算將大大提高數據處理效率。

3. 基于可編程處理器的H.264實(shí)現策略

　　H.264在復雜度上大大高于以往標準，這就要求處理器在架構上必須找到新的突破。筆者認為，以下兩點(diǎn)將是基于可編程處理器的H.264算法實(shí)現的有效手段。

（1）針對H.264具體算法實(shí)現進(jìn)一步進(jìn)行指令擴展。

　　在H.264中由于增加了很多以往標準所有沒(méi)有的編碼技術(shù)，例如整數變換（結合量化），去方塊效應濾波器，以及精度更高的運動(dòng)估計和補償等等，這就要求在指令集上必須進(jìn)行擴展。

　　值得一提的是，在H.264中運動(dòng)估計采用了多幀參考技術(shù)，這要求處理器設計人員對處理器的數據調度機制以及片內外存儲器的組織等必須有新的考慮。

（2）雙核、多核架構適配H.264編碼器的可并行處理特性。

　　在H.264當中，和以往標準一樣可以進(jìn)行基于圖（picture）、片（slice）和宏塊級的并行處理。而且，在H.264中采用RD算法進(jìn)行模式選擇，所有的模式在計算時(shí)都不存在相關(guān)性，即可以并行操作。因此，雙核、多核架構在單核處理能力不夠的情況下，也將被人們接受。隨之而來(lái)的是軟件工作難度（如編譯器，操作系統任務(wù)調度等）將會(huì )大大增加。

　　針對以上兩點(diǎn)，值得一提的是ADI 的Blackfin系列處理器。該系列處理器中BF531/533/535均為單核架構，均進(jìn)行SIMD指令集的擴展。而其中的并行指令（運算類(lèi)指令和存儲器操作指令可以并行執行）有力地提高了數據處理為主的視頻編解碼器系統的性能。目前該款處理器正向多核架構發(fā)展（如基于雙核的BF561）以適應H.264如此高復雜度的算法的實(shí)現，這將是未來(lái)幾年內提升處理器性能的一個(gè)有效途徑，也將為高復雜度的H.264的實(shí)現奠定基礎。而B(niǎo)lackfin系列處理器在功耗、成本等方面的指標也是其受到人們關(guān)注的一個(gè)原因。

四、MediaSOC3201A：一種非對稱(chēng)結構的雙核系統芯片

　　浙江大學(xué)信息與通信工程研究所SoC R&D小組自2004年4月研發(fā)成功國內首款具有自主知識產(chǎn)權的RISC/DSP混合體系結構處理器MediaDSP3200以來(lái)，于2004年底成功研制出基于雙核的音視頻SOC樣片（MediaSOC3201A），如圖3，其樣片如圖4。區別于BF561的對稱(chēng)架構（SMP），MediaSOC3201A是一種非對稱(chēng)結構（AMP），主要包括：媒體擴展CPU（運行操作系統，承擔音頻解碼、系統控制以及部分視頻解碼任務(wù)），多功能處理器MediaDSP3201（數字信號處理、媒體處理指令擴展處理器：浙大數芯，負責視頻處理等數據處理任務(wù)），多任務(wù)DMA（負責數據調度），各種同步、異步存儲控制器，視頻編碼器（支持NTSC、PAL等制式），IIS音頻播放以及GPIO等外設接口。

　　目前，課題組正在研究基于MedisSOC3201A的H.264算法實(shí)現。算法、架構協(xié)同考慮是我們的目標。課題負責人劉鵬教授正滿(mǎn)懷信心地帶領(lǐng)整個(gè)研發(fā)團隊為中國的集成電路、媒體系統芯片事業(yè)添磚加瓦。

■ 參考文獻

1] 王維東，劉鵬，史冊等．浙大數芯媒體處理器．中國多媒體視訊，2004（7）：96～99

[2] Wiegand，Sullivan G．Study of Final Committee Draft of Joint Video Specification （ITU-T Rec. H.264 | ISO/IEC 14496-10 AVC），Draft2 ．JVT- G050d2，Pattaya，Thailand，2003（3）

[3] Preliminary Technical Data：ADSP-BF5xx，http://www.analog.com

作者：俞國軍劉鵬蔡為光姚慶棟　摘自：中國多媒體視訊

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久