亚洲高清heyzo加勒比_ 基于DSP的視頻算法系統優(yōu)化若干策略

基于 DSP 的視頻算法系統優(yōu)化若干策略

作者：王華斌，丁剛 - 德州儀器(TI)

數字視頻產(chǎn)品需求近些年出現猛增。主流應用包括視頻通信、視頻監控與工業(yè)自動(dòng)化，而最熱門(mén)的要算娛樂(lè )應用，如 DVD、HDTV、衛星電視、標清(SD)或高清 (HD) 機頂盒、數碼相機與 HD 攝像機、高端顯示器（LCD、等離子顯示器、DLP）以及個(gè)人攝像機等。這些應用都向高質(zhì)量的視頻編解碼算法及其標準提出巨大需求，目前主流壓縮標準主要有MPEG2、MPEG4和H.264/AVC，而針對這些編解碼標準有各種各樣的實(shí)現方案。本文主要探討基于TI 的C64系列DSP的視頻解碼算法標準系統優(yōu)化過(guò)程中需要考慮的若干因素。

TI的C64系列DSP以其強大的處理能力被廣泛用于視頻處理領(lǐng)域，然而由于大家對C64系列DSP的結構、指令、的理解程度不一樣，造成算法實(shí)現時(shí)的效果有許多的差異。具體體現在實(shí)現算法時(shí)所使用的CPU的資源上。如實(shí)現H.264 MP@D1解碼時(shí)所占用CPU的資源上，會(huì )有所差異，或者是所包含的算法工具子集上，如實(shí)現H.264 MP@D1解碼時(shí)使用CAVLC而不使用CABAC。造成這些差異，主要原因有如下因素：

算法關(guān)鍵模塊的優(yōu)化算法系統集成時(shí)Memory的管理算法系統集成時(shí)的EDMA的資源分配管理

本文從這三方面逐步探討算法優(yōu)化集成中需要考慮的若干因素。

算法關(guān)鍵模塊的優(yōu)化

一般而言，對于目前主流視頻解壓縮標準都有類(lèi)似的很消耗DSP CPU的模塊，如H.264/AVC、MPEG4、AVS等編碼中運動(dòng)矢量搜索很占用資源，而且這些模塊在整個(gè)系統實(shí)現過(guò)程中調用相當頻繁，因此我們首先找出這些模塊，這點(diǎn)TI的CCS提供了工程剖析工具(Profile)，可以很快找到整個(gè)工程中占用DSP CPU資源最多的模塊；然后對這些模塊進(jìn)行優(yōu)化。

對這些關(guān)鍵算法模塊的優(yōu)化我們分可以分三步進(jìn)行，如圖2所示，先認真分析這部分代碼，并進(jìn)行相應的調整，如盡量減少有判斷跳轉的代碼，特別是for循環(huán)中，判斷跳轉會(huì )打斷軟件流水。使用的方法，可是使用查表或者使用_cmpgtu4、_cmpeq4等Intrinsics來(lái)代替比較判斷指令，從而巧妙替代判斷跳轉語(yǔ)句。同時(shí)使用TI的CCS中所提供的#pragma提供編譯器盡量多的信息，這些信息包括for循環(huán)的次數信息、數據對齊信息等。如果經(jīng)過(guò)這部分優(yōu)化無(wú)法滿(mǎn)足系統要求，則對這部分模塊使用線(xiàn)性匯編實(shí)現，線(xiàn)性匯編是介于C和匯編之間的一種語(yǔ)言實(shí)現形式，可以控制指令的使用，而不必特別關(guān)心寄存器、功能單元(S、D、M、L)的分配和使用，使用線(xiàn)性匯編一般會(huì )比使用C語(yǔ)言具有更高的執行效率。如果線(xiàn)性匯編還無(wú)法滿(mǎn)足要求，則使用匯編實(shí)現，要編寫(xiě)出高并行、深軟件流水的匯編需要經(jīng)過(guò)畫(huà)相關(guān)圖，創(chuàng )建時(shí)序表(Scheduling table)等步驟，由于篇幅所限，這里就不熬述。

表1

使用方式周期數

C+Intrinsics 83

線(xiàn)性匯編 74

匯編 57

優(yōu)化選項：-pm, -o3，基于C64plus內核，C+Instrinsics 是指在C中使用Instrinsics。

表1是運動(dòng)搜索中所需要的計算16×16宏塊SAD值時(shí)，不同方式下所消耗的DSP CPU的周期數。由此可見(jiàn)，匯編實(shí)現所消耗的CPU的周期數最少，但前提是需要充分了解DSP CPU的結構、指令以及算法模塊的結構，從而能夠編寫(xiě)出高并行、深軟件流水的匯編，否則有可能所寫(xiě)出的匯編還沒(méi)有線(xiàn)性匯編或者C效率更高。為此一個(gè)行之有效的方法是，充分利用TI所提供的算法庫中的函數，因為算法庫中的函數都是已經(jīng)充分優(yōu)化過(guò)的算法模塊，而且大都提供對對應的C、線(xiàn)性匯編和匯編源代碼，并有文檔進(jìn)行API介紹。

算法系統集成時(shí)Memory的管理

由于在基于DSP的嵌入式系統開(kāi)發(fā)中，存儲資源特別是片內高速存儲資源有限，在算法系統集成時(shí)Memory的管理對于提高整個(gè)系統的優(yōu)化是非常重要的，這一方面影響數據的讀取、搬移速度；另一方面還影響Cache的命中率，下面分程序和數據兩方面分析。

程序區：最大原則是將經(jīng)常調度使用的算法模塊放片內。為做到這點(diǎn)，TI的CCS中提供了#pragma CODE_SECTION，可以把需要單獨控制存放的函數段從.text段中獨立出來(lái)，從而在.cmd文件中對這些函數段進(jìn)行單獨物理地址映射。還可以使用程序動(dòng)態(tài)的方式，將需要運行的代碼段先調度進(jìn)片內memory，如H.264/AVC中CAVLC和CABAC兩個(gè)算法模塊具有互斥性，因此可以將這兩個(gè)算法模塊放在片外而且對應于片內同一塊運行區，在運行其中某一個(gè)算法模塊之前，先將其調入片內，從而充分利用片內有限的高速存儲區。程序區的管理考慮到一級程序Cache(L1 P)的命中率，最好將具有先后執行順序的函數按地址先后順序配置在程序空間中，同時(shí)對代碼比較大的處理函數將其拆分成小函數。

數據區：在視頻標準編解碼中，由于數據塊都很大，如一幀D1 4:2:0的圖像有622k大小，而且在編解碼中都需要開(kāi)3~5幀甚至更多的緩沖幀，因此數據基本上無(wú)法在片內存放。為此在系統的Memory優(yōu)化管理中，需要開(kāi)C64系列DSP的二級Cache(對于TMS320DM642用于視頻編解碼中二級Cache開(kāi)64k的情況比較多)。同時(shí)最好將放片外的被Cache所映射的視頻緩沖區的數據以128 byte對齊，這是因為C64系列的DSP的二級Cache的每行大小為128 byte，以128 byte對齊有利于Cache的刷新和一致性維護。

算法系統集成時(shí)的EDMA的資源分配管理

由于在視頻處理中，會(huì )經(jīng)常有塊數據的搬移，而且C64系列DSP提供了EDMA，邏輯上有64個(gè)通道，因此對EDMA的配置使用對優(yōu)化系統是非常重要的。為此可以使用下述步驟進(jìn)行充分配置系統的EDMA資源。

1. 統計系統中各種需要使用EDMA的情況及其大概需要占用的EDMA物理總線(xiàn)的時(shí)間，如表2所示：

輸入視頻流輸入音頻流輸出碼流視頻算法調度QDMA 音頻算法調度QDMA

TR請求 Video Port McBSP EDMA L2控制器 L2控制器

傳輸源端口 Video Port McBSP EMIF(SDRAM) L2/EMIF L2/EMIF

傳輸目的端口 EMIF(SDRAM) EMIF(SDRAM) PCI EMIF/L2 EMIF/L2

傳輸塊大小/TR請求 720 byte 4 byte 32 byte 512 byte 16 byte

請求周期 22.72 uS/TR 34.72 uS/TR 122 uS/TR 最小為

4.12 uS/TR 最小為

17.76 uS/TR

注意：該表針對視頻通過(guò)視頻端口(Video Port)(720*480，4:2:0，30Frame/s)，音頻通過(guò)McBSP(采樣率為44k)進(jìn)入DSP，壓縮好的數據數率在2Mbps左右，數據通過(guò)PCI每488uS輸出一個(gè)128byte的包(PCI口工作頻率為33MHz)，外掛SDRAM的時(shí)鐘頻率為133MHz，只做一個(gè)參考應用例子。

2. 統計好這些信息后，需要依據系統對各種碼流實(shí)時(shí)性、及其傳輸數據塊大小對各個(gè)被使用的EDMA通道進(jìn)行優(yōu)先級分配。一般而言，由于音頻流傳輸塊小，因此占用EDMA總線(xiàn)的時(shí)間短，而視頻傳輸塊比較大，占用EDMA總線(xiàn)的時(shí)間較長(cháng)，因此將輸入音頻所對應的EDMA通道的優(yōu)先級設定為Q0(urgent)，視頻的優(yōu)先級設定為Q2(medium)，輸出碼流所對應的EDMA通道的優(yōu)先級設定為Q1(high)，音視頻算法處理中所調度的QDMA的優(yōu)先級設定為Q3(low)。當然這些設定在真正系統應用中可能還需要調整的。

實(shí)際的基于TI DSP視頻算法優(yōu)化集成過(guò)程，會(huì )是基于圖1所示的步驟，先初步配置Memory，并選擇相應編譯優(yōu)化選項，如果編譯的結果已經(jīng)可以達到實(shí)時(shí)性要求之后就結束后面的優(yōu)化；否則開(kāi)始優(yōu)化Memory和EDMA的配置，從而提高對Cache和內部總線(xiàn)的利用率；如果還無(wú)法達到要求則通過(guò)剖析整個(gè)工程確定消耗CPU資源最高的代碼段或者函數，對這些關(guān)鍵模塊進(jìn)行優(yōu)化，采用線(xiàn)性匯編、甚至匯編直到整個(gè)系統可以滿(mǎn)足要求為止。

參考文獻：

TMS320C64x/C64x+ DSP CPU and Instruction Set Reference Guide (SPRU732)

TMS320C6000 EDMA IO Scheduling and Performance (SPRAA00)

TMS320C6000 Optimizing Compiler User's Guide (spru187)

TMS320C64x EDMA Architecture (SPRA994)

TMS320C6000 EDMA Controller Reference Guide (SPRU234)

TMS320C64x DSP Two-Level Internal Memory Reference Guide (SPRU610)

Cache Usage in High-Performance DSP Applications With the TMS320C64x (SPRA756)

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久