一、漢字的編碼
1.國標碼
“中華人民共和國國家標準信息交換漢字編碼”,標準號GB2312-80。該編碼字符集收錄了一級漢字3755個(gè),二級漢字3008個(gè),圖形符號682個(gè),共7445個(gè)。
在GB2312-80代碼表中,縱向分為0~93,共94行;橫向也是0~93,共94列。行與列分別用7位二進(jìn)制碼表示,第一字節表示行,第二字節表示列。其值從0100001到1111110(十六進(jìn)制為21-7E)。這正是ASCII碼的可打印字符的編碼范圍。國標碼是將第一字節和第二字節連寫(xiě)而得,習慣上稱(chēng)第一字節為“高字節”,第二字節為“低字節”,一般用十六進(jìn)制表示。
2.區位碼
整個(gè)代碼表分為94個(gè)區(對應高字節),每個(gè)區94個(gè)位(對應低字節),合起來(lái)就是區位碼,按如下規則確定:
高位內碼=高字節國標碼-20H
低位內碼=低字節國標碼-20H
例如,漢字“啊”在16行的第l列,則它的區位碼是“1001H”。
注:區位碼的高字節和低字節的取值范圍均是01H~5EH。
3.機內碼
也就是內碼。漢字區位碼的區碼和位碼的范圍在1~94內,如果直接作為機內碼必將與基本的ASCII碼沖突。為避免與基本ASCII碼中的控制碼與字符碼的沖突,分別在區碼、位碼上增加A0H(即10100000)。所以,內碼同樣占兩個(gè)字節,分別稱(chēng)為高位內碼與低位內碼,按如下規則確定:
高位內碼=區碼+A0H
低位內碼=位碼+A0H
例如,漢字“啊”的內碼是“B0A1H”(即1011000010100001)。
注:高位內碼與低位內碼的取值范圍均是A1H~FEH。
二、漢字的輸出顯示
漢字的輸出主要是指漢字字形的輸出,方式主要是顯示和打印兩種。實(shí)際上,每一個(gè)漢字都是一個(gè)特定的圖形,用一個(gè)點(diǎn)陣來(lái)表示。點(diǎn)陣的每個(gè)點(diǎn)位只有兩種狀態(tài):有點(diǎn)或無(wú)點(diǎn)。若用二進(jìn)制代碼來(lái)表示即為該位取值為1 表示有點(diǎn),取值為0表示無(wú)點(diǎn)。
例如,如果用16×16點(diǎn)陣來(lái)表示一個(gè)漢字,則該漢字圖形由16行16列共256個(gè)點(diǎn)構成,這256個(gè)點(diǎn)需用256個(gè)二進(jìn)制的位來(lái)描述,需要32個(gè)字節來(lái)存儲用于存放圖形信息,這樣的二進(jìn)制代碼串稱(chēng)為漢字的“字?!?。
所有漢字和各種符號的點(diǎn)陣信息就組成漢字的“字模庫”(簡(jiǎn)稱(chēng)字庫)。字模的表示順序為:先從左到右,再從上到下。也就是先畫(huà)第一行左上方的8個(gè)點(diǎn),再是右上方的8個(gè)點(diǎn),然后是第二行左邊8個(gè)點(diǎn),右邊8個(gè)點(diǎn),以此類(lèi)推。
三、漢字的顯示原理
1.從鍵盤(pán)輸入的漢字經(jīng)過(guò)鍵盤(pán)管理模塊,變換成機內碼。
2.然后經(jīng)字模檢索程序,查到機內碼對應的點(diǎn)陣信息在字模庫的地址。
3.從字庫中檢索出該漢字點(diǎn)陣信息。
4.利用顯示驅動(dòng)程序將這些信息送到顯示卡的顯示緩沖存儲器中。
5.顯示器的控制器把點(diǎn)陣信息整屏順次讀出,并使每一個(gè)二進(jìn)制位與屏幕的一個(gè)點(diǎn)位相對應,就可以將漢字字形在屏幕上顯示出來(lái)。
四、用區位碼獲取漢字的點(diǎn)陣信息
以16×16的點(diǎn)陣漢字庫文件為例。一個(gè)漢字用了256個(gè)點(diǎn)共32個(gè)字節表示。漢字共分94區,每個(gè)區有94位漢字。機內碼用兩個(gè)字節表示,第一個(gè)字節存儲區號(qh),為了和ASCII碼相區別,范圍從十六進(jìn)制的A1H開(kāi)始(小于80H地為ASCII碼字符),對應區碼的第一區;第二個(gè)字節是位號(wh),范圍也從A1H開(kāi)始,對應某區中的第一個(gè)位碼。這樣,將漢字機內碼減去A0A0H就得到該漢字的區位碼。從而可以得到漢字在字庫中的具體位置:
位置=(94*(qh-1) + wh-1) * 一個(gè)漢字字模占用的字節數
對于16×16的點(diǎn)陣漢字庫,漢字在字庫中的具體位置的計算公式就是:(94*(qh-1)+wh-1)*32。例如,“房”的機內碼為十六進(jìn)制的B7BF,則其區位碼是B7BFH-A0A0H=171FH,轉化為十進(jìn)制就是2331,在漢字庫中的位置就是32*[94*(23-1)+(31-1)]=67136字節以后的32個(gè)字節為“房”的顯示點(diǎn)陣。
自己寫(xiě)的一個(gè)demo,抓取漢字的ASC值:
可以看到用ASC方法抓取的ASCII的值是-12590,是一個(gè)負數。
ASCW返回的是Unicode(寬型)字符代碼,抓取的值是25105。
說(shuō)到ASCII值,介紹幾個(gè)方法:
Asc、AscB、AscW 是 VBScript 中的三個(gè)函數,其區別如下。
Asc(string) 返回與字符串的第一個(gè)字母對應的 ANSI 字符代碼。返回值:英文 >0,中文 <0。
AscB(binstr) 適用于二進(jìn)制數據。AscB 不是返回第一個(gè)字符的字符代碼,而是返回首字節。
AscW(string) 是為使用 Unicode 字符的 32 位平臺提供的。它返回 Unicode (寬型)字符代碼,因此可以避免從 ANSI 到 Unicode 的代碼轉換。

