匯編語(yǔ)言和CPU以及內存,端口等硬件知識是連在一起的. 這也是為什么匯編語(yǔ)言沒(méi)有通用性的原因. 下面簡(jiǎn)單講講基本知識(針對INTELx86及其兼容機) ============================x86匯編語(yǔ)言的指令,其操作對象是CPU上的寄存器,系統內存,或者立即數. 有些指令表面上沒(méi)有操作數, 或者看上去缺少操作數,其實(shí)該指令有內定的操作對象, 比如push指令, 一定是對SS:ESP指定的內存操作, 而cdq的操作對象一定是eax / edx.在匯編語(yǔ)言中,寄存器用名字來(lái)訪(fǎng)問(wèn). CPU 寄存器有好幾類(lèi), 分別有不同的用處: 1. 通用寄存器:EAX,EBX,ECX,EDX,ESI,EDI,EBP,ESP(這個(gè)雖然通用,但很少被用做除了堆棧指針外的用途)這些32位可以被用作多種用途,但每一個(gè)都有"專(zhuān)長(cháng)". EAX 是"累加器"(accumulator), 它是很多加法乘法指令的缺省寄存器.EBX 是"基地址"(base)寄存器, 在內存尋址時(shí)存放基地址. ECX 是計數器(counter),是重復(REP)前綴指令和LOOP指令的內定計數器. EDX是...(忘了..哈哈)但它總是被用來(lái)放整數除法產(chǎn)生的余數.這4個(gè)寄存器的低16位可以被單獨訪(fǎng)問(wèn),分別用AX,BX,CX和DX. AX又可以單獨訪(fǎng)問(wèn)低8位(AL)和高8位(AH),BX,CX,DX也類(lèi)似. 函數的返回值經(jīng)常被放在EAX中. ESI/EDI分別叫做"源/目標索引寄存器"(source/destinationindex),因為在很多字符串操作指令中, DS:ESI指向源串,而ES:EDI指向目標串. EBP是"基址指針"(BASEPOINTER), 它最經(jīng)常被用作高級語(yǔ)言函數調用的"框架指針"(frame pointer).在破解的時(shí)候,經(jīng)??梢钥匆?jiàn)一個(gè)標準的函數起始代碼: push ebp ;保存當前ebp mov ebp,esp ;EBP設為當前堆棧指針sub esp, xxx ;預留xxx字節給函數臨時(shí)變量. ... 這樣一來(lái),EBP 構成了該函數的一個(gè)框架,在EBP上方分別是原來(lái)的EBP, 返回地址和參數. EBP下方則是臨時(shí)變量. 函數返回時(shí)作 mov esp,ebp/pop ebp/ret即可. ESP 專(zhuān)門(mén)用作堆棧指針. 2. 段寄存器: CS(Code Segment,代碼段) 指定當前執行的代碼段. EIP(Instruction pointer, 指令指針)則指向該段中一個(gè)具體的指令. CS:EIP指向哪個(gè)指令, CPU 就執行它.一般只能用jmp, ret, jnz, call 等指令來(lái)改變程序流程,而不能直接對它們賦值. DS(DATA SEGMENT, 數據段)指定一個(gè)數據段. 注意:在當前的計算機系統中, 代碼和數據沒(méi)有本質(zhì)差別, 都是一串二進(jìn)制數, 區別只在于你如何用它. 例如, CS制定的段總是被用作代碼, 一般不能通過(guò)CS指定的地址去修改該段. 然而,你可以為同一個(gè)段申請一個(gè)數據段描述符"別名"而通過(guò)DS來(lái)訪(fǎng)問(wèn)/修改.自修改代碼的程序常如此做. ES,FS,GS 是輔助的段寄存器, 指定附加的數據段. SS(STACK SEGMENT)指定當前堆棧段.ESP 則指出該段中當前的堆棧頂. 所有push/pop 系列指令都只對SS:ESP指出的地址進(jìn)行操作. 3. 標志寄存器(EFLAGS):該寄存器有32位,組合了各個(gè)系統標志. EFLAGS一般不作為整體訪(fǎng)問(wèn), 而只對單一的標志位感興趣. 常用的標志有:進(jìn)位標志C(CARRY), 在加法產(chǎn)生進(jìn)位或減法有借位時(shí)置1, 否則為0. 零標志Z(ZERO), 若運算結果為0則置1, 否則為0符號位S(SIGN), 若運算結果的最高位置1, 則該位也置1. 溢出標志O(OVERFLOW), 若(帶符號)運算結果超出可表示范圍,則置1. JXX 系列指令就是根據這些標志來(lái)決定是否要跳轉, 從而實(shí)現條件分枝. 要注意,很多JXX 指令是等價(jià)的, 對應相同的機器碼.例如, JE 和JZ 是一樣的,都是當Z=1是跳轉. 只有JMP 是無(wú)條件跳轉. JXX 指令分為兩組, 分別用于無(wú)符號操作和帶符號操作.JXX 后面的"XX" 有如下字母: 無(wú)符號操作: 帶符號操作: A = "ABOVE", 表示"高于" G = "GREATER",表示"大于" B = "BELOW", 表示"低于" L = "LESS", 表示"小于" C = "CARRY", 表示"進(jìn)位"或"借位"O = "OVERFLOW", 表示"溢出" S = "SIGN", 表示"負" 通用符號: E = "EQUAL" 表示"等于", 等價(jià)于Z(ZERO) N = "NOT" 表示"非", 即標志沒(méi)有置位. 如JNZ "如果Z沒(méi)有置位則跳轉" Z = "ZERO", 與E同.如果仔細想一想,就會(huì )發(fā)現 JA = JNBE, JAE = JNB, JBE = JNA, JG = JNLE, JGE= JNL, JL=JNGE, .... 4. 端口端口是直接和外部設備通訊的地方。外設接入系統后,系統就會(huì )把外設的數據接口映射到特定的端口地址空間,這樣,從該端口讀入數據就是從外設讀入數據,而向外設寫(xiě)入數據就是向端口寫(xiě)入數據。當然這一切都必須遵循外設的工作方式。端口的地址空間與內存地址空間無(wú)關(guān),系統總共提供對64K個(gè)8位端口的訪(fǎng)問(wèn),編號0-65535.相鄰的8位端口可以組成成一個(gè)16位端口,相鄰的16位端口可以組成一個(gè)32位端口。端口輸入輸出由指令I(lǐng)N,OUT,INS和OUTS實(shí)現,具體可參考匯編語(yǔ)言書(shū)籍。
匯編指令的操作數可以是內存中的數據, 如何讓程序從內存中正確取得所需要的數據就是對內存的尋址.
INTEL 的CPU 可以工作在兩種尋址模式:實(shí)模式和保護模式. 前者已經(jīng)過(guò)時(shí),就不講了, WINDOWS 現在是32位保護模式的系統, PE 文件就基本是運行在一個(gè)32位線(xiàn)性地址空間, 所以這里就只介紹32位線(xiàn)性空間的尋址方式.
其實(shí)線(xiàn)性地址的概念是很直觀(guān)的, 就想象一系列字節排成一長(cháng)隊,第一個(gè)字節編號為0, 第二個(gè)編號位1, ....一直到4294967295(十六進(jìn)制FFFFFFFF,這是32位二進(jìn)制數所能表達的最大值了). 這已經(jīng)有4GB的容量!足夠容納一個(gè)程序所有的代碼和數據. 當然, 這并不表示你的機器有那么多內存. 物理內存的管理和分配是很復雜的內容, 初學(xué)者不必在意, 總之,從程序本身的角度看, 就好象是在那么大的內存中.
在INTEL系統中,內存地址總是由"段選擇符:有效地址"的方式給出.段選擇符(SELECTOR)存放在某一個(gè)段寄存器中, 有效地址則可由不同的方式給出.段選擇符通過(guò)檢索段描述符確定段的起始地址, 長(cháng)度(又稱(chēng)段限制), 粒度, 存取權限, 訪(fǎng)問(wèn)性質(zhì)等. 先不用深究這些,只要知道段選擇符可以確定段的性質(zhì)就行了. 一旦由選擇符確定了段, 有效地址相對于段的基地址開(kāi)始算. 比如由選擇符1A7選擇的數據段,其基地址是400000, 把1A7 裝入DS中, 就確定使用該數據段. DS:0 就指向線(xiàn)性地址400000. DS:1F5278就指向線(xiàn)性地址5E5278. 我們在一般情況下, 看不到也不需要看到段的起始地址, 只需要關(guān)心在該段中的有效地址就行了. 在32位系統中,有效地址也是由32位數字表示, 就是說(shuō), 只要有一個(gè)段就足以涵蓋4GB線(xiàn)性地址空間, 為什么還要有不同的段選擇符呢? 正如前面所說(shuō)的,這是為了對數據進(jìn)行不同性質(zhì)的訪(fǎng)問(wèn). 非法的訪(fǎng)問(wèn)將產(chǎn)生異常中斷, 而這正是保護模式的核心內容, 是構造優(yōu)先級和多任務(wù)系統的基礎.這里有涉及到很多深層的東西, 初學(xué)者先可不必理會(huì ).
有效地址的計算方式是: 基址+間址*比例因子+偏移量. 這些量都是指段內的相對于段起始地址的量度, 和段的起始地址沒(méi)有關(guān)系. 比如, 基址=100000, 間址=400, 比例因子=4, 偏移量=20000, 則有效地址為:
100000+400*4+20000=100000+1000+20000=121000. 對應的線(xiàn)性地址是400000+121000=521000. (注意, 都是十六進(jìn)制數).
基址可以放在任何32位通用寄存器中, 間址也可以放在除ESP外的任何一個(gè)通用寄存器中. 比例因子可以是1, 2, 4 或8. 偏移量是立即數.如: [EBP+EDX*8+200]就是一個(gè)有效的有效地址表達式. 當然, 多數情況下用不著(zhù)這么復雜, 間址,比例因子和偏移量不一定要出現.
內存的基本單位是字節(BYTE). 每個(gè)字節是8個(gè)二進(jìn)制位, 所以每個(gè)字節能表示的最大的數是11111111, 即十進(jìn)制的255. 一般來(lái)說(shuō),用十六進(jìn)制比較方便, 因為每4個(gè)二進(jìn)制位剛好等于1個(gè)十六進(jìn)制位, 11111111b = 0xFF. 內存中的字節是連續存放的,兩個(gè)字節構成一個(gè)字(WORD), 兩個(gè)字構成一個(gè)雙字(DWORD). 在INTEL架構中, 采用small endian格式,即在內存中,高位字節在低位字節后面. 舉例說(shuō)明:十六進(jìn)制數803E7D0C, 每?jì)晌皇且粋€(gè)字節, 在內存中的形式是: 0C 7D 3E 80.在32位寄存器中則是正常形式,如在EAX就是803E7D0C. 當我們的形式地址指向這個(gè)數的時(shí)候,實(shí)際上是指向第一個(gè)字節,即0C.我們可以指定訪(fǎng)問(wèn)長(cháng)度是字節, 字或者雙字. 假設DS:[EDX]指向第一個(gè)字節0C:
mov AL, byte ptr DS:[EDX] ;把字節0C存入AL
mov AX, word ptr DS:[EDX] ;把字7D0C存入AX
mov EAX, dword ptr DS:[EDX] ;把雙字803E7D0C存入EAX
在段的屬性中,有一個(gè)就是缺省訪(fǎng)問(wèn)寬度.如果缺省訪(fǎng)問(wèn)寬度為雙字(在32位系統中經(jīng)常如此),那么要進(jìn)行字節或字的訪(fǎng)問(wèn),就必須用byte/word ptr顯式地指明.
缺省段選擇:如果指令中只有作為段內偏移的有效地址,而沒(méi)有指明在哪一個(gè)段里的時(shí)候,有如下規則:
如果用ebp和esp作為基址或間址,則認為是在SS確定的段中;
其他情況,都認為是在DS確定的段中。
如果想打破這個(gè)規則,就必須使用段超越前綴。舉例如下:
mov eax, dword ptr [edx] ;缺省使用DS,把DS:[EDX]指向的雙字送入eax
mov ebx, dword ptr ES:[EDX] ;使用ES:段超越前綴,把ES:[EDX]指向的雙字送入ebx
堆棧:
堆棧是一種數據結構,嚴格地應該叫做“棧”。“堆”是另一種類(lèi)似但不同的結構。SS 和 ESP是INTEL對棧這種數據結構的硬件支持。push/pop指令是專(zhuān)門(mén)針對棧結構的特定操作。SS指定一個(gè)段為棧段,ESP則指出當前的棧頂。pushxxx 指令作如下操作:
把ESP的值減去4;
把xxx存入SS:[ESP]指向的內存單元。
這樣,esp的值減小了4,并且SS:[ESP]指向新壓入的xxx. 所以棧是“倒著(zhù)長(cháng)”的,從高地址向低地址方向擴展。pop yyy指令做相反的操作,把SS:[ESP]指向的雙字送到yyy指定的寄存器或內存單元,然后把esp的值加上4。這時(shí),認為該值已被彈出,不再在棧上了,因為它雖然還暫時(shí)存在在原來(lái)的棧頂位置,但下一個(gè)push操作就會(huì )把它覆蓋。因此,在棧段中地址低于esp的內存單元中的數據均被認為是未定義的。
最后,有一個(gè)要注意的事實(shí)是,匯編語(yǔ)言是面向機器的,指令和機器碼基本上是一一對應的,所以它們的實(shí)現取決于硬件.有些看似合理的指令實(shí)際上是不存在的,比如:
mov DS:[edx], ds:[ecx] ;內存單元之間不能直接傳送
mov DS, 1A7 ;段寄存器不能直接由立即數賦值
mov EIP, 3D4E7 ;不能對指令指針直接操作.
“匯編語(yǔ)言”作為一門(mén)語(yǔ)言,對應于高級語(yǔ)言的編譯器,我們需要一個(gè)“匯編器”來(lái)把匯編語(yǔ)言原文件匯編成機器可執行的代碼。高級的匯編器如MASM,TASM等等為我們寫(xiě)匯編程序提供了很多類(lèi)似于高級語(yǔ)言的特征,比如結構化、抽象等。在這樣的環(huán)境中編寫(xiě)的匯編程序,有很大一部分是面向匯編器的偽指令,已經(jīng)類(lèi)同于高級語(yǔ)言?,F在的匯編環(huán)境已經(jīng)如此高級,即使全部用匯編語(yǔ)言來(lái)編寫(xiě)windows的應用程序也是可行的,但這不是匯編語(yǔ)言的長(cháng)處。匯編語(yǔ)言的長(cháng)處在于編寫(xiě)高效且需要對機器硬件精確控制的程序。而且我想這里的人學(xué)習匯編的目的多半是為了在破解時(shí)看懂反匯編代碼,很少有人真的要拿匯編語(yǔ)言編程序吧?(汗......)
好了,言歸正傳。大多數匯編語(yǔ)言書(shū)都是面向匯編語(yǔ)言編程的,我的帖是面向機器和反匯編的,希望能起到相輔相成的作用。有了前面兩篇的基礎,匯編語(yǔ)言書(shū)上對大多數指令的介紹應該能夠看懂、理解了。這里再講一講一些常見(jiàn)而操作比較復雜的指令。我這里講的都是機器的硬指令,不針對任何匯編器。
無(wú)條件轉移指令jmp:
這種跳轉指令有三種方式:短(short),近(near)和遠(far)。短是指要跳至的目標地址與當前地址前后相差不超過(guò)128字節。近是指跳轉的目標地址與當前地址在用一個(gè)段內,即CS的值不變,只改變EIP的值。遠指跳到另一個(gè)代碼段去執行,CS/EIP都要改變。短和近在編碼上有所不同,在匯編指令中一般很少顯式指定,只要寫(xiě) jmp目標地址,幾乎任何匯編器都會(huì )根據目標地址的距離采用適當的編碼。遠轉移在32位系統中很少見(jiàn)到,原因前面已經(jīng)講過(guò),由于有足夠的線(xiàn)性空間,一個(gè)程序很少需要兩個(gè)代碼段,就連用到的系統模塊也被映射到同一個(gè)地址空間。
jmp的操作數自然是目標地址,這個(gè)指令支持直接尋址和間接尋址。間接尋址又可分為寄存器間接尋址和內存間接尋址。舉例如下(32位系統):
jmp 8E347D60 ;直接尋址段內跳轉
jmp EBX ;寄存器間接尋址:只能段內跳轉
jmp dword ptr [EBX] ;內存間接尋址,段內跳轉
jmp dword ptr [00903DEC] ;同上
jmp fward ptr [00903DF0] ;內存間接尋址,段間跳轉
解釋?zhuān)?
在32位系統中,完整目標地址由16位段選擇子和32位偏移量組成。因為寄存器的寬度是32位,因此寄存器間接尋址只能給出32位偏移量,所以只能是段內近轉移。在內存間接尋址時(shí),指令后面是方括號內的有效地址,在這個(gè)地址上存放跳轉的目標地址。比如,在[00903DEC]處有如下數據:7C
82 59 00 A7
01 85 65 9F 01
內存字節是連續存放的,如何確定取多少作為目標地址呢?dword ptr 指明該有效地址指明的是雙字,所以取
0059827C作段內跳轉。反之,fward ptr 指明后面的有效地址是指向48位完全地址,所以取19F:658501A7 做遠跳轉。
注意:在保護模式下,如果段間轉移涉及優(yōu)先級的變化,則有一系列復雜的保護檢查,現在可不加理會(huì )。將來(lái)等各位功力提升以后可以自己去學(xué)習。
條件轉移指令jxx:只能作段內轉移,且只支持直接尋址。
=========================================
調用指令CALL:
Call的尋址方式與jmp基本相同,但為了從子程序返回,該指令在跳轉以前會(huì )把緊接著(zhù)它的下一條指令的地址壓進(jìn)堆棧。如果是段內調用(目標地址是32位偏移量),則壓入的也只是一個(gè)偏移量。如果是段間調用(目標地址是48位全地址),則也壓入下一條指令的完全地址。同樣,如果段間轉移涉及優(yōu)先級的變化,則有一系列復雜的保護檢查。
與之對應retn/retf指令則從子程序返回。它從堆棧上取得返回地址(是call指令壓進(jìn)去的)并跳到該地址執行。retn取32位偏移量作段內返回,retf取48位全地址作段間返回。retn/f還可以跟一個(gè)立即數作為操作數,該數實(shí)際上是從堆棧上傳給子程序的參數的個(gè)數(以字計)返回后自動(dòng)把堆棧指針esp加上指定的數*2,從而丟棄堆棧中的參數。這里具體的細節留待下一篇講述。
雖然call和ret設計為一起工作,但它們之間沒(méi)有必然的聯(lián)系。就是說(shuō),如果你直接用push指令向堆棧中壓入一個(gè)數,然后執行ret,他同樣會(huì )把你壓入的數作為返回地址,而跳到那里去執行。這種非正常的流程轉移可以被用作反跟蹤手段。
==========================================
中斷指令I(lǐng)NT n
在保護模式下,這個(gè)指令必定會(huì )被操作系統截獲。在一般的PE程序中,這個(gè)指令已經(jīng)不太見(jiàn)到了,而在DOS時(shí)代,中斷是調用操作系統和BIOS的重要途徑?,F在的程序可以文質(zhì)彬彬地用名字來(lái)調用windows功能,如 calluser32!getwindowtexta。從程序角度看,INT指令把當前的標志寄存器先壓入堆棧,然后把下一條指令的完全地址也壓入堆棧,最后根據操作數n來(lái)檢索“中斷描述符表”,試圖轉移到相應的中斷服務(wù)程序去執行。通常,中斷服務(wù)程序都是操作系統的核心代碼,必然會(huì )涉及到優(yōu)先級轉換和保護性檢查、堆棧切換等等,細節可以看一些高級的教程。
與之相應的中斷返回指令I(lǐng)RET做相反的操作。它從堆棧上取得返回地址,并用來(lái)設置CS:EIP,然后從堆棧中彈出標志寄存器。注意,堆棧上的標志寄存器值可能已經(jīng)被中斷服務(wù)程序所改變,通常是進(jìn)位標志C,用來(lái)表示功能是否正常完成。同樣的,IRET也不一定非要和INT指令對應,你可以自己在堆棧上壓入標志和地址,然后執行IRET來(lái)實(shí)現流程轉移。實(shí)際上,多任務(wù)操作系統常用此伎倆來(lái)實(shí)現任務(wù)轉換。
廣義的中斷是一個(gè)很大的話(huà)題,有興趣可以去查閱系統設計的書(shū)籍。
============================================
裝入全指針指令LDS,LES,LFS,LGS,LSS
這些指令有兩個(gè)操作數。第一個(gè)是一個(gè)通用寄存器,第二個(gè)操作數是一個(gè)有效地址。指令從該地址取得48位全指針,將選擇符裝入相應的段寄存器,而將32位偏移量裝入指定的通用寄存器。注意在內存中,指針的存放形式總是32位偏移量在前面,16位選擇符在后面。裝入指針以后,就可以用DS:[ESI]這樣的形式來(lái)訪(fǎng)問(wèn)指針指向的數據了。
============================================
字符串操作指令
這里包括CMPS,SCAS,LODS,STOS,MOVS,INS和OUTS等。這些指令有一個(gè)共同的特點(diǎn),就是沒(méi)有顯式的操作數,而由硬件規定使用DS:[ESI]指向源字符串,用ES:[EDI]指向目的字符串,用AL/AX/EAX做暫存。這是硬件規定的,所以在使用這些指令之前一定要設好相應的指針。
這里每一個(gè)指令都有3種寬度形式,如CMPSB(字節比較)、CMPSW(字比較)、CMPSD(雙字比較)等。
CMPSB:比較源字符串和目標字符串的第一個(gè)字符。若相等則Z標志置1。若不等則Z標志置0。指令執行完后,ESI 和EDI都自動(dòng)加1,指向源/目標串的下一個(gè)字符。如果用CMPSW,則比較一個(gè)字,ESI/EDI自動(dòng)加2以指向下一個(gè)字。
如果用CMPSD,則比較一個(gè)雙字,ESI/EDI自動(dòng)加4以指向下一個(gè)雙字。(在這一點(diǎn)上這些指令都一樣,不再贅述)
SCAB/W/D 把AL/AX/EAX中的數值與目標串中的一個(gè)字符/字/雙字比較。
LODSB/W/D 把源字符串中的一個(gè)字符/字/雙字送入AL/AX/EAX
STOSB/W/D 把AL/AX/EAX中的直送入目標字符串中
MOVSB/W/D 把源字符串中的字符/字/雙字復制到目標字符串
INSB/W/D 從指定的端口讀入字符/字/雙字到目標字符串中,端口號碼由DX寄存器指定。
OUTSB/W/D 把源字符串中的字符/字/雙字送到指定的端口,端口號碼由DX寄存器指定。
串操作指令經(jīng)常和重復前綴REP和循環(huán)指令LOOP結合使用以完成對整個(gè)字符串的操作。而REP前綴和LOOP指令都有硬件規定用ECX做循環(huán)計數器。舉例:
LDS ESI,SRC_STR_PTR
LES EDI,DST_STR_PTR
MOV ECX,200
REP MOVSD
上面的代碼從SRC_STR拷貝200個(gè)雙字到DST_STR. 細節是:REP前綴先檢查ECX是否為0,若否則執行一次MOVSD,ECX自動(dòng)減1,然后執行第二輪檢查、執行......直到發(fā)現ECX=0便不再執行MOVSD,結束重復而執行下面的指令。
LDS ESI,SRC_STR_PTR
MOV ECX,100
LOOP1:
LODSW
.... (deal with value in AX)
LOOP LOOP1
.....
從SRC_STR處理100個(gè)字。同樣,LOOP指令先判斷ECX是否為零,來(lái)決定是否循環(huán)。每循環(huán)一輪ECX自動(dòng)減1。
REP和LOOP 都可以加上條件,變成REPZ/REPNZ 和 LOOPZ/LOOPNZ. 這是除了ECX外,還用檢查零標志Z. REPZ 和LOOPZ在Z為1時(shí)繼續循環(huán),否則退出循環(huán),即使ECX不為0。REPNZ/LOOPNZ則相反。
高級語(yǔ)言程序的匯編解析
在高級語(yǔ)言中,如C和PASCAL等等,我們不再直接對硬件資源進(jìn)行操作,而是面向于問(wèn)題的解決,這主要體現在數據抽象化和程序的結構化。例如我們用變量名來(lái)存取數據,而不再關(guān)心這個(gè)數據究竟在內存的什么地方。這樣,對硬件資源的使用方式完全交給了編譯器去處理。不過(guò),一些基本的規則還是存在的,而且大多數編譯器都遵循一些規范,這使得我們在閱讀反匯編代碼的時(shí)候日子好過(guò)一點(diǎn)。這里主要講講匯編代碼中一些和高級語(yǔ)言對應的地方。
1.普通變量。通常聲明的變量是存放在內存中的。編譯器把變量名和一個(gè)內存地址聯(lián)系起來(lái)(這里要注意的是,所謂的“確定的地址”是對編譯器而言在編譯階段算出的一個(gè)臨時(shí)的地址。在連接成可執行文件并加載到內存中執行的時(shí)候要進(jìn)行重定位等一系列調整,才生成一個(gè)實(shí)時(shí)的內存地址,不過(guò)這并不影響程序的邏輯,所以先不必太在意這些細節,只要知道所有的函數名字和變量名字都對應一個(gè)內存的地址就行了),所以變量名在匯編代碼中就表現為一個(gè)有效地址,就是放在方括號中的操作數。例如,在C文件中聲明:
int my_age;
這個(gè)整型的變量就存在一個(gè)特定的內存位置。語(yǔ)句 my_age= 32; 在反匯編代碼中可能表現為:
mov word ptr [007E85DA], 20
所以在方括號中的有效地址對應的是變量名。又如:
char my_name[11] = "lianzi2000";
這樣的說(shuō)明也確定了一個(gè)地址,對應于my_name. 假設地址是007E85DC,則內存中[007E85DC]=‘l‘,[007E85DD]=‘i‘, etc. 對my_name的訪(fǎng)問(wèn)也就是對這地址處的數據訪(fǎng)問(wèn)。
指針變量其本身也同樣對應一個(gè)地址,因為它本身也是一個(gè)變量。如:
char *your_name;
這時(shí)也確定變量"your_name"對應一個(gè)內存地址,假設為007E85F0. 語(yǔ)句your_name=my_name;很可能表現為:
mov [007E85F0], 007E85DC ;your_name的內容是my_name的地址。
2. 寄存器變量
在C和C++中允許說(shuō)明寄存器變量。register int i; 指明i是寄存器存放的整型變量。通常,編譯器都把寄存器變量放在esi和edi中。寄存器是在cpu內部的結構,對它的訪(fǎng)問(wèn)要比內存快得多,所以把頻繁使用的變量放在寄存器中可以提高程序執行速度。
3. 數組
不管是多少維的數組,在內存中總是把所有的元素都連續存放,所以在內存中總是一維的。例如,int i_array[2][3];在內存確定了一個(gè)地址,從該地址開(kāi)始的12個(gè)字節用來(lái)存貯該數組的元素。所以變量名i_array對應著(zhù)該數組的起始地址,也即是指向數組的第一個(gè)元素。存放的順序一般是i_array[0][0],[0][1],[0][2],[1][0],[1][1],[1][2]即最右邊的下標變化最快。當需要訪(fǎng)問(wèn)某個(gè)元素時(shí),程序就會(huì )從多維索引值換算成一維索引,如訪(fǎng)問(wèn)i_array[1][1],換算成內存中的一維索引值就是1*3+1=4.這種換算可能在編譯的時(shí)候就可以確定,也可能要到運行時(shí)才可以確定。無(wú)論如何,如果我們把i_array對應的地址裝入一個(gè)通用寄存器作為基址,則對數組元素的訪(fǎng)問(wèn)就是一個(gè)計算有效地址的問(wèn)題:
; i_array[1][1]=0x16
lea ebx,xxxxxxxx ;i_array 對應的地址裝入ebx
mov edx,04 ;訪(fǎng)問(wèn)i_array[1][1],編譯時(shí)就已經(jīng)確定
mov word ptr [ebx+edx*2], 16 ;
當然,取決于不同的編譯器和程序上下文,具體實(shí)現可能不同,但這種基本的形式是確定的。從這里也可以看到比例因子的作用(還記得比例因子的取值為1,2,4或8嗎?),因為在目前的系統中簡(jiǎn)單變量總是占據1,2,4或者8個(gè)字節的長(cháng)度,所以比例因子的存在為在內存中的查表操作提供了極大方便。
4. 結構和對象
結構和對象的成員在內存中也都連續存放,但有時(shí)為了在字邊界或雙字邊界對齊,可能有些微調整,所以要確定對象的大小應該用sizeof操作符而不應該把成員的大小相加來(lái)計算。當我們聲明一個(gè)結構變量或初始化一個(gè)對象時(shí),這個(gè)結構變量和對象的名字也對應一個(gè)內存地址。舉例說(shuō)明:
struct tag_info_struct
{
int age;
int sex;
float height;
float weight;
} marry;
變量marry就對應一個(gè)內存地址。在這個(gè)地址開(kāi)始,有足夠多的字節(sizeof(marry))容納所有的成員。每一個(gè)成員則對應一個(gè)相對于這個(gè)地址的偏移量。這里假設此結構中所有的成員都連續存放,則age的相對地址為0,sex為2, height 為4,weight為8。
; marry.sex=0;
lea ebx,xxxxxxxx ;marry 對應的內存地址
mov word ptr [ebx+2], 0
......
對象的情況基本相同。注意成員函數具體的實(shí)現在代碼段中,在對象中存放的是一個(gè)指向該函數的指針。
5. 函數調用
一個(gè)函數在被定義時(shí),也確定一個(gè)內存地址對應于函數名字。如:
long comb(int m, int n)
{
long temp;
.....
return temp;
}
這樣,函數comb就對應一個(gè)內存地址。對它的調用表現為:
CALL xxxxxxxx ;comb對應的地址。這個(gè)函數需要兩個(gè)整型參數,就通過(guò)堆棧來(lái)傳遞:
;lresult=comb(2,3);
push 3
push 2
call xxxxxxxx
mov dword ptr [yyyyyyyy], eax ;yyyyyyyy是長(cháng)整型變量lresult的地址
這里請注意兩點(diǎn)。第一,在C語(yǔ)言中,參數的壓棧順序是和參數順序相反的,即后面的參數先壓棧,所以先執行push 3.第二,在我們討論的32位系統中,如果不指明參數類(lèi)型,缺省的情況就是壓入32位雙字。因此,兩個(gè)push指令總共壓入了兩個(gè)雙字,即8個(gè)字節的數據。然后執行call指令。call 指令又把返回地址,即下一條指令(mov dwordptr....)的32位地址壓入,然后跳轉到xxxxxxxx去執行。
在comb子程序入口處(xxxxxxxx),堆棧的狀態(tài)是這樣的:
03000000 (請回憶small endian 格式)
02000000
yyyyyyyy <--ESP 指向返回地址
前面講過(guò),子程序的標準起始代碼是這樣的:
push ebp ;保存原先的ebp
mov ebp, esp;建立框架指針
sub esp, XXX;給臨時(shí)變量預留空間
.....
執行push ebp之后,堆棧如下:
03000000
02000000
yyyyyyyy
old ebp <---- esp 指向原來(lái)的ebp
執行mov ebp,esp之后,ebp 和esp 都指向原來(lái)的ebp. 然后sub esp, xxx 給臨時(shí)變量留空間。這里,只有一個(gè)臨時(shí)變量temp,是一個(gè)長(cháng)整數,需要4個(gè)字節,所以xxx=4。這樣就建立了這個(gè)子程序的框架:
03000000
02000000
yyyyyyyy
old ebp <---- 當前ebp指向這里
temp
所以子程序可以用[ebp+8]取得第一參數(m),用[ebp+C]來(lái)取得第二參數(n),以此類(lèi)推。臨時(shí)變量則都在ebp下面,如這里的temp就對應于[ebp-4].
子程序執行到最后,要返回temp的值:
mov eax,[ebp-04]
然后執行相反的操作以撤銷(xiāo)框架:
mov esp,ebp ;這時(shí)esp 和ebp都指向old ebp,臨時(shí)變量已經(jīng)被撤銷(xiāo)
pop ebp ;撤銷(xiāo)框架指針,恢復原ebp.
這是esp指向返回地址。緊接的retn指令返回主程序:
retn 4
該指令從堆棧彈出返回地址裝入EIP,從而返回到主程序去執行call后面的指令。同時(shí)調整esp(esp=esp+4*2),從而撤銷(xiāo)參數,使堆?;謴偷秸{用子程序以前的狀態(tài),這就是堆棧的平衡。調用子程序前后總是應該維持堆棧的平衡。從這里也可以看到,臨時(shí)變量temp已經(jīng)隨著(zhù)子程序的返回而消失,所以試圖返回一個(gè)指向臨時(shí)變量的指針是非法的。
為了更好地支持高級語(yǔ)言,INTEL還提供了指令Enter 和Leave 來(lái)自動(dòng)完成框架的建立和撤銷(xiāo)。Enter 接受兩個(gè)操作數,第一個(gè)指明給臨時(shí)變量預留的字節數,第二個(gè)是子程序嵌套調用層數,一般都為0。enter xxx,0 相當于:
push ebp
mov ebp,esp
sub esp,xxx
leave 則相當于:
mov esp,ebp
pop ebp
=============================================================
好啦,我的學(xué)習心得講完了,謝謝各位的抬舉。教程是不敢當的,因為我也是個(gè)大菜鳥(niǎo)。如果這些東東能使你們的學(xué)習輕松一些,進(jìn)步快一些,本菜鳥(niǎo)就很開(kāi)心了。