C/C++語(yǔ)言有一個(gè)不同于其它語(yǔ)言的特性,即其支持可變參數,典型的函數如printf、scanf等可以接受數量不定的參數。如:
printf ( "I love you" );
printf ( "%d", a );
printf ( "%d,%d", a, b );
第一、二、三個(gè)printf分別接受1、2、3個(gè)參數,讓我們看看printf函數的原型:
int printf ( const char *format, ... );
從函數原型可以看出,其除了接收一個(gè)固定的參數format以外,后面的參數用"…"表示。在C/C++語(yǔ)言中,"…"表示可以接受不定數量的參數,理論上來(lái)講,可以是0或0以上的n個(gè)參數。
本文將對C/C++可變參數表的使用方法及C/C++支持可變參數表的深層機理進(jìn)行探索。
一. 可變參數表的用法
1、相關(guān)宏
標準C/C++包含頭文件stdarg.h,該頭文件中定義了如下三個(gè)宏:
void va_start ( va_list arg_ptr, prev_param ); /* ANSI version */
type va_arg ( va_list arg_ptr, type );
void va_end ( va_list arg_ptr );
在這些宏中,va就是variable argument(可變參數)的意思;arg_ptr是指向可變參數表的指針;prev_param則指可變參數表的前一個(gè)固定參數;type為可變參數的類(lèi)型。va_list也是一個(gè)宏,其定義為typedef char * va_list,實(shí)質(zhì)上是一char型指針。char型指針的特點(diǎn)是++、--操作對其作用的結果是增1和減1(因為sizeof(char)為1),與之不同的是int等其它類(lèi)型指針的++、--操作對其作用的結果是增sizeof(type)或減sizeof(type),而且sizeof(type)大于1。
通過(guò)va_start宏我們可以取得可變參數表的首指針,這個(gè)宏的定義為:
#define va_start ( ap, v ) ( ap = (va_list)&v + _INTSIZEOF(v) )
顯而易見(jiàn),其含義為將最后那個(gè)固定參數的地址加上可變參數對其的偏移后賦值給ap,這樣ap就是可變參數表的首地址。其中的_INTSIZEOF宏定義為:
#define _INTSIZEOF(n) ((sizeof ( n ) + sizeof ( int ) - 1 ) & ~( sizeof( int ) - 1 ) )
va_arg宏的意思則指取出當前arg_ptr所指的可變參數并將ap指針指向下一可變參數,其原型為:
#define va_arg(list, mode) ((mode *)(list =\
(char *) ((((int)list + (__builtin_alignof(mode)<=4?3:7)) &\
(__builtin_alignof(mode)<=4?-4:-8))+sizeof(mode))))[-1]
對這個(gè)宏的具體含義我們將在后面深入討論。
而va_end宏被用來(lái)結束可變參數的獲取,其定義為:
#define va_end ( list )
可以看出,va_end ( list )實(shí)際上被定義為空,沒(méi)有任何真實(shí)對應的代碼,用于代碼對稱(chēng),與va_start對應;另外,它還可能發(fā)揮代碼的"自注釋"作用。所謂代碼的"自注釋",指的是代碼能自己注釋自己。
下面我們以具體的例子來(lái)說(shuō)明以上三個(gè)宏的使用方法。
2、一個(gè)簡(jiǎn)單的例子
#include <stdarg.h>
/* 函數名:max
* 功能:返回n個(gè)整數中的最大值
* 參數:num:整數的個(gè)數 ...:num個(gè)輸入的整數
* 返回值:求得的最大整數
*/
int max ( int num, ... )
{
int m = -0x7FFFFFFF; /* 32系統中最小的整數 */
va_list ap;
va_start ( ap, num );
for ( int i= 0; i< num; i++ )
{
int t = va_arg (ap, int);
if ( t > m )
{
m = t;
}
}
va_end (ap);
return m;
}
/* 主函數調用max */
int main ( int argc, char* argv[] )
{
int n = max ( 5, 5, 6 ,3 ,8 ,5); /* 求5個(gè)整數中的最大值 */
cout << n;
return 0;
}
函數max中首先定義了可變參數表指針ap,而后通過(guò)va_start ( ap, num )取得了參數表首地址(賦給了ap),其后的for循環(huán)則用來(lái)遍歷可變參數表。這種遍歷方式與我們在數據結構教材中經(jīng)??吹降谋闅v方式是類(lèi)似的。
函數max看起來(lái)簡(jiǎn)潔明了,但是實(shí)際上printf的實(shí)現卻遠比這復雜。max函數之所以看起來(lái)簡(jiǎn)單,是因為:
(1) max函數可變參數表的長(cháng)度是已知的,通過(guò)num參數傳入;
(2) max函數可變參數表中參數的類(lèi)型是已知的,都為int型。
而printf函數則沒(méi)有這么幸運。首先,printf函數可變參數的個(gè)數不能輕易的得到,而可變參數的類(lèi)型也不是固定的,需由格式字符串進(jìn)行識別(由%f、%d、%s等確定),因此則涉及到可變參數表的更復雜應用。
下面我們以實(shí)例來(lái)分析可變參數表的高級應用。
二. 高級應用
下面這個(gè)程序是我們?yōu)槟城度胧较到y(該系統中CPU的字長(cháng)為16位)編寫(xiě)的在屏幕上顯示格式字符串的函數DrawText,它的用法類(lèi)似于int printf ( const char *format, ... )函數,但其輸出的目標為嵌入式系統的液晶顯示屏幕(LED)。
///////////////////////////////////////////////////////////////////////////////
// 函數名稱(chēng): DrawText
// 功能說(shuō)明: 在顯示屏上繪制文字
// 參數說(shuō)明: xPos ---橫坐標的位置 [0 .. 30]
// yPos ---縱坐標的位置 [0 .. 64]
// ... 可以同數字一起顯示,需設置標志(%d、%l、%x、%s)
///////////////////////////////////////////////////////////////////////////////
extern void DrawText ( BYTE xPos, BYTE yPos, LPBYTE lpStr, ... )
{
BYTE lpData[100]; //緩沖區
BYTE byIndex;
BYTE byLen;
DWORD dwTemp;
WORD wTemp;
int i;
va_list lpParam;
memset( lpData, 0, 100);
byLen = strlen( lpStr );
byIndex = 0;
va_start ( lpParam, lpStr );
for ( i = 0; i < byLen; i++ )
{
if( lpStr[i] != ’%’ ) //不是格式符開(kāi)始
{
lpData[byIndex++] = lpStr[i];
}
else
{
switch (lpStr[i+1])
{
//整型
case ’d’:
case ’D’:
wTemp = va_arg ( lpParam, int );
byIndex += IntToStr( lpData+byIndex, (DWORD)wTemp );
i++;
break;
//長(cháng)整型
case ’l’:
case ’L’:
dwTemp = va_arg ( lpParam, long );
byIndex += IntToStr ( lpData+byIndex, (DWORD)dwTemp );
i++;
break;
//16進(jìn)制(長(cháng)整型)
case ’x’:
case ’X’:
dwTemp = va_arg ( lpParam, long );
byIndex += HexToStr ( lpData+byIndex, (DWORD)dwTemp );
i++;
break;
default:
lpData[byIndex++] = lpStr[i];
break;
}
}
}
va_end ( lpParam );
lpData[byIndex] = ’\0’;
DisplayString ( xPos, yPos, lpData, TRUE); //在屏幕上顯示字符串lpData
}
在這個(gè)函數中,需通過(guò)對傳入的格式字符串(首地址為lpStr)進(jìn)行識別來(lái)獲知可變參數個(gè)數及各個(gè)可變參數的類(lèi)型,具體實(shí)現體現在for循環(huán)中。譬如,在識別為%d后,做的是va_arg ( lpParam, int ),而獲知為%l和%x后則進(jìn)行的是va_arg ( lpParam, long )。格式字符串識別完成后,可變參數也就處理完了。
在項目的最初,我們一直苦于不能找到一個(gè)好的辦法來(lái)混合輸出字符串和數字,我們采用了分別顯示數字和字符串的方法,并分別指定坐標,程序條理被破壞。而且,在混合顯示的時(shí)候,要給各類(lèi)數據分別人工計算坐標,我們感覺(jué)頭疼不已。以前的函數為:
//顯示字符串
showString ( BYTE xPos, BYTE yPos, LPBYTE lpStr )
//顯示數字
showNum ( BYTE xPos, BYTE yPos, int num )
//以16進(jìn)制方式顯示數字
showHexNum ( BYTE xPos, BYTE yPos, int num )
最終,我們用DrawText ( BYTE xPos, BYTE yPos, LPBYTE lpStr, ... )函數代替了原先所有的輸出函數,程序得到了簡(jiǎn)化。就這樣,兄弟們用得爽翻了。
三. 運行機制探索
通過(guò)第2節我們學(xué)會(huì )了可變參數表的使用方法,相信喜歡拋根問(wèn)底的讀者還不甘心,必然想知道如下問(wèn)題:
?。?)為什么按照第2節的做法就可以獲得可變參數并對其進(jìn)行操作?
?。?)C/C++在底層究竟是依靠什么來(lái)對這一語(yǔ)法進(jìn)行支持的,為什么其它語(yǔ)言就不能提供可變參數表呢?
我們帶著(zhù)這些疑問(wèn)來(lái)一步步進(jìn)行摸索。
3.1 調用機制反匯編
反匯編是研究語(yǔ)法深層特性的終極良策,先來(lái)看看2.2節例子中主函數進(jìn)行max ( 5, 5, 6 ,3 ,8 ,5)調用時(shí)的反匯編:
1. 004010C8 push 5
2. 004010CA push 8
3. 004010CC push 3
4. 004010CE push 6
5. 004010D0 push 5
6. 004010D2 push 5
7. 004010D4 call @ILT+5(max) (0040100a)
從上述反匯編代碼中我們可以看出,C/C++函數調用的過(guò)程中:
第一步:將參數從右向左入棧(第1~6行);
第二步:調用call指令進(jìn)行跳轉(第7行)。
這兩步包含了深刻的含義,它說(shuō)明C/C++默認的調用方式為由調用者管理參數入棧的操作,且入棧的順序為從右至左,這種調用方式稱(chēng)為_(kāi)cdecl調用。x86系統的入棧方向為從高地址到低地址,故第1至n個(gè)參數被放在了地址遞增的堆棧內。在被調用函數內部,讀取這些堆棧的內容就可獲得各個(gè)參數的值,讓我們反匯編到max函數的內部:
int max ( int num, ...)
{
1. 00401020 push ebp
2. 00401021 mov ebp,esp
3. 00401023 sub esp,50h
4. 00401026 push ebx
5. 00401027 push esi
6. 00401028 push edi
7. 00401029 lea edi,[ebp-50h]
8. 0040102C mov ecx,14h
9. 00401031 mov eax,0CCCCCCCCh
10. 00401036 rep stos dword ptr [edi]
va_list ap;
int m = -0x7FFFFFFF; /* 32系統中最小的整數 */
11. 00401038 mov dword ptr [ebp-8],80000001h
va_start ( ap, num );
12. 0040103F lea eax,[ebp+0Ch]
13. 00401042 mov dword ptr [ebp-4],eax
for ( int i= 0; i< num; i++ )
14. 00401045 mov dword ptr [ebp-0Ch],0
15. 0040104C jmp max+37h (00401057)
16. 0040104E mov ecx,dword ptr [ebp-0Ch]
17. 00401051 add ecx,1
18. 00401054 mov dword ptr [ebp-0Ch],ecx
19. 00401057 mov edx,dword ptr [ebp-0Ch]
20. 0040105A cmp edx,dword ptr [ebp+8]
21. 0040105D jge max+61h (00401081)
{
int t= va_arg (ap, int);
22. 0040105F mov eax,dword ptr [ebp-4]
23. 00401062 add eax,4
24. 00401065 mov dword ptr [ebp-4],eax
25. 00401068 mov ecx,dword ptr [ebp-4]
26. 0040106B mov edx,dword ptr [ecx-4]
27. 0040106E mov dword ptr [t],edx
if ( t > m )
28. 00401071 mov eax,dword ptr [t]
29. 00401074 cmp eax,dword ptr [ebp-8]
30. 00401077 jle max+5Fh (0040107f)
m = t;
31. 00401079 mov ecx,dword ptr [t]
32. 0040107C mov dword ptr [ebp-8],ecx
}
33. 0040107F jmp max+2Eh (0040104e)
va_end (ap);
34. 00401081 mov dword ptr [ebp-4],0
return m;
35. 00401088 mov eax,dword ptr [ebp-8]
}
36. 0040108B pop edi
37. 0040108C pop esi
38. 0040108D pop ebx
39. 0040108E mov esp,ebp
40. 00401090 pop ebp
41. 00401091 ret
分析上述反匯編代碼,對于一個(gè)真正的程序員而言,將是一種很大的享受;而對于初學(xué)者,也將使其受益良多。所以請一定要賴(lài)著(zhù)頭皮認真研究,千萬(wàn)不要被嚇倒!
行1~10進(jìn)行執行函數內代碼的準備工作,保存現場(chǎng)。第2行對堆棧進(jìn)行移動(dòng);第3行則意味著(zhù)max函數為其內部局部變量準備的堆??臻g為50h字節;第11行表示把變量n的內存空間安排在了函數內部局部棧底減8的位置(占用4個(gè)字節)。
第12~13行非常關(guān)鍵,對應著(zhù)va_start ( ap, num ),這兩行將第一個(gè)可變參數的地址賦值給了指針ap。另外,從第12行可以看出num的地址為ebp+0Ch;從第13行可以看出ap被分配在函數內部局部棧底減4的位置上(占用4個(gè)字節)。
第22~27行最為關(guān)鍵,對應著(zhù)va_arg (ap, int)。其中,22~24行的作用為將ap指向下一可變參數(可變參數的地址間隔為4個(gè)字節,從add eax,4可以看出);25~27行則取當前可變參數的值賦給變量t。這段反匯編很奇怪,它先移動(dòng)可變參數指針,再在賦值指令里面回過(guò)頭來(lái)取先前的參數值賦給t(從mov edx,dword ptr [ecx-4]語(yǔ)句可以看出)。Visual C++同學(xué)玩得有意思,不知道碰見(jiàn)同樣的情況Visual Basic等其它同學(xué)怎么玩?
第36~41行恢復現場(chǎng)和堆棧地址,執行函數返回操作。
痛苦的反匯編之旅差不多結束了,看了這段反匯編我們總算弄明白了可變參數的存放位置以及它們被讀取的方式,頓覺(jué)全省輕松!
2、特殊的調用約定
除此之外,我們需要了解C/C++函數調用對參數占用空間的一些特殊約定,因為在_cdecl調用協(xié)議中,有些變量類(lèi)型是按照其它變量的尺寸入棧的。
例如,字符型變量將被自動(dòng)擴展為一個(gè)字的空間,因為入棧操作針對的是一個(gè)字。
參數n實(shí)際占用的空間為( ( sizeof(n) + sizeof(int) - 1 ) & ~( sizeof(int) - 1 ) ),這就是第2.1節_INTSIZEOF(v)宏的來(lái)歷!
既然如此,前面給出的va_arg ( list, mode )宏為什么玩這么大的飛機就很清楚了。這個(gè)問(wèn)題就留個(gè)讀者您來(lái)分析