| 發(fā)布時(shí)間:2006年9月19日 點(diǎn)擊次數:59 |
| 來(lái)源:電子設計應用 作者:王運盛,陳穎,王堅 |
| 摘要:本文從ARM結構的特點(diǎn)出發(fā),根據程序優(yōu)化的基本原則,闡述了面向ARM的C語(yǔ)言程序優(yōu)化設計的一些基本原則和方法及其在TCP/IP協(xié)議實(shí)現中的應用。 關(guān)鍵詞:程序優(yōu)化;嵌入式系統;ARM結構;TCP/IP協(xié)議 隨 著(zhù)嵌入式技術(shù)的發(fā)展,人們對系統的智能化、小型化的要求也越來(lái)越高?;贏(yíng)RM結構的微處理器以其高性能、低功耗、低價(jià)格等方面的優(yōu)勢被廣泛應用于各種電 子產(chǎn)品,特別是一些高端的嵌入式控制應用中,例如移動(dòng)電話(huà)、工業(yè)控制、網(wǎng)絡(luò )通信等方面。ARM技術(shù)具有很好的性能和功效,其合作伙伴包括許多世界頂級的半 導體公司??梢哉f(shuō)ARM技術(shù)幾乎無(wú)處不在。 TCP/IP互聯(lián)網(wǎng)協(xié)議族在全世界范圍內已經(jīng)成為開(kāi)放系統互聯(lián)的協(xié)議,它提供了很好的交互操作 能力,可兼容多種網(wǎng)絡(luò )技術(shù)。嵌入式技術(shù)與TCP/IP技術(shù)的結合已經(jīng)展現出強勁的發(fā)展勢頭和巨大的市場(chǎng)潛力。如何開(kāi)發(fā)面向ARM的高效代碼,尤其是提高類(lèi) 似于TCP/IP協(xié)議棧等基礎性的軟件模塊的執行效率已成為每個(gè)從事基于A(yíng)RM的嵌入式系統開(kāi)發(fā)人員必須思考的問(wèn)題。 面向ARM的程序優(yōu)化 開(kāi)發(fā)高效的程序涉及很多方面,包括優(yōu)秀的算法實(shí)現、良好的編程風(fēng)格以及針對目標的程序優(yōu)化。程序優(yōu)化是指軟件編程基本結束后,利用軟件開(kāi)發(fā)工具對程序代碼進(jìn)行調整和改進(jìn),使程序能夠更加充分地利用有限的軟硬件資源,縮減代碼尺寸,提高運行效率的過(guò)程。 在 實(shí)際的程序設計過(guò)程中,程序優(yōu)化的兩個(gè)目標(運行速度和代碼大小)往往是互相矛盾的。為了提高程序運行效率,就要以犧牲存儲空間、增加代碼量為代價(jià);而為 了減少程序代碼量、壓縮存儲器空間,可能又要以降低程序運行效率為代價(jià)。按照優(yōu)化的側重點(diǎn)不同,程序優(yōu)化可分為運行速度優(yōu)化和代碼尺寸優(yōu)化。隨著(zhù)微電子技 術(shù)的不斷發(fā)展,存儲空間已不再是制約系統集成的主要因素。面向ARM的程序優(yōu)化主要是討論如何在了解匯編語(yǔ)言和編譯規則的基礎上編寫(xiě)出能夠高效運行的C語(yǔ) 言程序。 作為高性能、低功耗的RISC芯片,ARM的C語(yǔ)言編譯器已經(jīng)非常成熟。盡管如此,在編寫(xiě)面向ARM的C源程序時(shí),對程序進(jìn)行必 要的優(yōu)化仍是提高程序運行效率的有效途徑。以下是一些在實(shí)現TCP/IP協(xié)議過(guò)程中用到的比較典型的優(yōu)化原則和方法,這些技術(shù)也適用于其他RISC 指令集微處理器。 變量定義 32 位ARM處理器的指令集支持有符號/無(wú)符號的8位、16位、32位整型和浮點(diǎn)型變量類(lèi)型,這不僅可以節省代碼,而且可以提高代碼的運行效率。按照作用范圍 的不同,C語(yǔ)言的變量可以劃分為全局變量和局部變量。ARM編譯器通常將全局變量定位在存儲空間中,局部變量分配給通用寄存器。 在全局變量聲明時(shí),需要考慮最佳的存儲器布局,使得各種類(lèi)型的變量能以32位的空間位基準對齊,從而減少不必要的存儲空間浪費,提高運行效率。如: ![]() 這里定義的四個(gè)變量形式相同,只是次序不同,卻導致了在最終映像中不同的數據布局,如圖1所示。顯然第二種方式節約了更多的存儲器空間。 ![]() 圖1 變量在數據區中的布局 對 于局部變量,要盡量不使用32位以外的變量類(lèi)型。當一個(gè)函數的局部變量數目不多時(shí),編譯器會(huì )把局部變量分配給內部寄存器,每個(gè)變量占一個(gè)32位的寄存器。 這樣short和char類(lèi)型的變量不但起不到節省空間的作用,反而會(huì )耗費更多的指令周期來(lái)完成short和char的存取操作。C語(yǔ)言代碼及其編譯結果 如下所示: ![]() 條件執行 條 件執行是程序中必不可少的基本操作。典型的條件執行代碼序列是由一個(gè)比較指令開(kāi)始的,接下來(lái)是一系列相關(guān)的執行語(yǔ)句。ARM中的條件執行是通過(guò)對運算結果 標志位進(jìn)行判斷實(shí)現的,一些帶標志位的運算結果中,N和Z標志位的結果與比較語(yǔ)句的結果相同。盡管在C語(yǔ)言中沒(méi)有帶標志位的指令,但在面向ARM的C語(yǔ)言 程序中,如果運算結果是與0作比較,編譯器會(huì )移去比較指令,通過(guò)一條帶標志位指令實(shí)現運算和判斷。例如: ![]() 因 此,面向ARM的C語(yǔ)言程序設計的條件判斷應當盡量采用“與0比較”的形式。C語(yǔ)言中,條件執行語(yǔ)句大多數應用在if條件判斷中,也有應用在復雜的關(guān)系運 算(<,==,>等)及位操運算(&&,!,and等)中的。面向ARM的C語(yǔ)言程序設計中,有符號型變量應盡量采取x& lt;0、x>=0、x==0、x!=0的關(guān)系運算;對于無(wú)符號型的變量應采用x==0、x!=0(或者x>0)關(guān)系運算符。編譯器都可以對 條件執行進(jìn)行優(yōu)化。 對于程序設計中的條件語(yǔ)句,應盡量簡(jiǎn)化if和else判斷條件。與傳統的C語(yǔ)言程序設計有所不同,面向ARM的C語(yǔ)言程序設計中,關(guān)系表述中類(lèi)似的條件應該集中在一起,使編譯器能夠對判斷條件進(jìn)行優(yōu)化。 循環(huán) 循 環(huán)是程序設計中非常普遍的結構。在嵌入式系統中,微處理器執行時(shí)間在循環(huán)中運行的比例較大,因此關(guān)注循環(huán)的執行效率是非常必要的。除了在保證系統正確工作 的前提下盡量簡(jiǎn)化核循環(huán)體的過(guò)程以外,正確和高效的循環(huán)結束標志條件也非常重要。按照以上所述的“與0比較”原則,程序中的循環(huán)結束條件應該是“減到0” 的循環(huán),結束條件盡量簡(jiǎn)單。應盡可能在關(guān)鍵循環(huán)中采取上述的判斷形式,這樣可以在關(guān)鍵循環(huán)中省去一些不必要的比較語(yǔ)句,減少不必要的開(kāi)銷(xiāo),提高性能。如下 面二個(gè)示例: ![]() fact1 和fact2中通過(guò)定義局部變量a來(lái)減少對n的load/store操作。fact2函數遵循了“與0比較”原則,省去了fact1編譯結果中的比較指 令,并且,變量n在整個(gè)循環(huán)過(guò)程不參與運算,也不需要保存。由于省去了寄存器分配,從而給其他部分程序的編譯帶來(lái)了方便,提高了運行效率。 “減到0”的方法同樣適用于while和do語(yǔ)句。如果一個(gè)循環(huán)體只循環(huán)幾次,可以用展開(kāi)的方法提高運行效率。當循環(huán)展開(kāi)后,不需要循環(huán)計數器和相關(guān)的跳轉語(yǔ)句,雖然代碼的長(cháng)度有所增加,但是得到了更高的執行效率。 除法和求余 ARM指令集中沒(méi)有提供整數的除法,除法是由C語(yǔ)言函數庫中的代碼(符號型_rt_sdiv和無(wú)符號型的_rt_udiv)實(shí)現的。一個(gè)32位數的除法需要20~140個(gè)周期,依賴(lài)于分子和分母的取值。除法操作所用的時(shí)間是一個(gè)時(shí)間常量乘每一位除法所需要的時(shí)間: Time(分子/分母)=C0+C1×log2(分子/分母) =C0+C1×(log2(分子)-log2(分母)) 由于除法的執行周期長(cháng),耗費的資源多,程序設計中應當盡量避免使用除法。以下是一些避免調用除法的變通辦法: (1)在某些特定的程序設計時(shí),可以把除法改寫(xiě)為乘法。例如:(x/y)>z,在已知y是正數而且y×z是整數的情況下,就可以寫(xiě)為x>(z×y)。 (2)盡可能使用2的次方作為除數,編譯器使用移位操作完成除法,如128就比100更加適合。在程序設計中,使用無(wú)符號型的除法要快于符號型的除法。 (3)使用求余運算的一個(gè)目的是為了按模計算,這樣的操作有時(shí)可以使用if的判斷語(yǔ)句來(lái)完成,考慮如下的應用: uintcounter1(uintcount)uintcounter2(uintcount) {{return(++count`);if(++count>=60)}count=0; return(count);} (4)對于一些特殊的除法和求余運算,采用查找表的方法也可以獲得很好的運行效果。 在 除以某些特定的常數時(shí),編寫(xiě)特定的函數完成此操作會(huì )比編譯產(chǎn)生的代碼效率高很多。ARM的C語(yǔ)言庫中就有二個(gè)這樣的符號型和無(wú)符號型數除以10的函數,用 來(lái)完成十進(jìn)制數的快速運算。在toolkit子目錄的examples\explasm\div.c和examples\thumb\div.c文件中, 有這二個(gè)函數的ARM和Thumb版本。 面向ARM的程序優(yōu)化在嵌入式TCP/IP協(xié)議實(shí)現中的應用 筆者采用ATMEL公司的AT91RM9200微處理器,配合以太網(wǎng)物理層驅動(dòng)芯片(DM9161)構建面向網(wǎng)絡(luò )的嵌入式系統硬件平臺,如圖2所示。在此平臺上,實(shí)現基于A(yíng)RM微處理器的嵌入式TCP/IP協(xié)議處理。 ![]() 基于A(yíng)RM的嵌入式系統直接面向以太網(wǎng)數據,典型的以太網(wǎng)數據封裝格式如圖3所示。根據以上的優(yōu)化方法,在變量定義時(shí)需要考慮最佳的存儲器布局,使得各種類(lèi)型的變量能以32位的空間位基準對齊,對于功能函數中參加運算的數據應盡量采用32位的數據進(jìn)行處理。 ![]() 嵌 入式TCP/IP協(xié)議的實(shí)現通常采用Linux中的TCP/IP網(wǎng)絡(luò )結構層次。TCP/IP協(xié)議實(shí)現網(wǎng)絡(luò )層和控制層的ARP/RARP、IP、ICMP、 TCP、UDP等協(xié)議,直接為HTTP、SMTP、FTP、TELNET等這樣的應用層協(xié)議提供支持。每個(gè)系統都需要具體定義應用層程序和協(xié)議軟件之間的 接口。 ![]() 協(xié)議處理的一般流程如圖4所示。協(xié)議處理過(guò)程中需要多次條件判斷,對IP地址和TCP數據的校驗和處理循環(huán)比較是無(wú)法避免的,因此可以充分利用“與0比較”的條件判斷和“減到0”的循環(huán)來(lái)優(yōu)化程序設計。 結束語(yǔ) 除 了以上所述的面向ARM的程序優(yōu)化的原則和方法以外,C語(yǔ)言程序設計本身還有很多程序優(yōu)化的方法。在上述基于A(yíng)RM嵌入式系統硬件平臺的系統開(kāi)發(fā)過(guò)程中, 充分利用面向ARM的C程序優(yōu)化設計方法,可將TCP/IP協(xié)議處理模塊的可執行代碼減少5%以上,執行效率有所提高。實(shí)踐證明,基于A(yíng)RM的嵌入式系統 設計中,在透徹了解ARM匯編指令的特性和編譯過(guò)程的基礎上,合理地使用程序優(yōu)化的原則和方法可以有效地提高編譯效率和代碼執行效率。 |
聯(lián)系客服