午夜精品一区二区三区在线观看_ 深入分析Oracle字符集(轉載)

如何選擇數據庫的字符集是一個(gè)有爭議的話(huà)題，字符集本身涉及的范圍很廣，它與應用程序、客戶(hù)的本地環(huán)境、操作系統、服務(wù)器等關(guān)系很密切，因此要做出合適的選擇，需要明白這些因素之間的關(guān)系。另外對字符集的基本概念，ORACLE數據庫字符集的一些知識也需要了解。

隨著(zhù)國內的軟件產(chǎn)品逐步走向海外，對于多語(yǔ)言的支持已經(jīng)成為軟件的一個(gè)基本要求，采用UNICODE標準也逐漸成為通用的設計方案，此時(shí)ORACLE數據庫的字符集應該如何選擇？很多人都有自己的見(jiàn)解，在網(wǎng)上也可以看到很多關(guān)于字符集的文章。這些文章有很多精華值得去學(xué)習，但是另一方面還存在一些錯誤，尤其對UNICODE，存在一些概念不清的地方。

數據庫字符集的選擇并不存在絕對意義上的正確或錯誤，每種字符集都有它適用的環(huán)境。對于我們來(lái)說(shuō)，了解得越多，越能幫助自己做出適當地選擇，而且可以采取措施去主動(dòng)防范或規避可能出現的問(wèn)題。反之，如果數據庫字符集選擇不恰當，會(huì )給后面的工作帶來(lái)很多的麻煩，需要花費很多時(shí)間和精力去解決問(wèn)題，有些問(wèn)題甚至會(huì )影響到客戶(hù)的業(yè)務(wù)使用。本文希望可以給大家提供一些相對全面的知識，方便大家了解數據庫字符集的相關(guān)概念，因此有些繁瑣，請大家見(jiàn)諒。另外由于個(gè)人的局限，有何不妥之處還請大家不吝指正。

下面我們由淺入深，先由概念入手，再給出幾種常用的字符集設置建議，對一些可能遇到的問(wèn)題做出分析，最后給出自己的建議。

1、字符集的一些基本知識

講到數據庫的字符集設置，首先需要對字符集的知識有些了解。以下是字符集的基本知識介紹：由于計算機只能存儲使用二進(jìn)制數據，因此對于一些字符或符號，需要對它們進(jìn)行編碼，用編碼后的數值來(lái)表示這些字符。對于一組符號的編碼集合就是字符集。

字符集有很多種，最初的字符集是ASCII，它用一個(gè)字節中的7位來(lái)表示128個(gè)字符，第8位沒(méi)有使用。它包括大小寫(xiě)字母、數字0-9、標點(diǎn)符號、非打印字符（換行符、制表符等4個(gè)）以及控制字符（退格、響鈴等）等。由于A(yíng)SCII支持的字符很有限，因此隨后又出現了很多的編碼方案，這些編碼方案大部分都是包括了ASCII的，它們只是做了擴展，這些擴展的內容一般各不相同，因此說(shuō)ASCII是一個(gè)比較基本的編碼，EBCDIC編碼是另一個(gè)比較基本的編碼，它的部分字符采用了和ASCII不同的編碼值，因此兩者是不兼容的基本編碼方案。采用EBCDIC編碼的比較少，目前主要是IBM的系統采用，如AS400及S390系統，大部分的系統都是基于A(yíng)SCII編碼的。

由于亞洲國家的字符集相對復雜一些，因此一般都使用了兩個(gè)及以上的字節進(jìn)行編碼的方案。對于簡(jiǎn)體中文，GB2312碼是國家1981年實(shí)施的編碼標準，通行于大陸。新加坡等地也使用此編碼。GBK編碼是GB2312碼的擴展，是1995年發(fā)布的指導性規范，它在字匯一級支持ISO/IEC 10646-1 和GB13000-1 的全部中日韓 (CJK)漢字(20902字)。目前最新的漢字字符集是2000年的GB18030，它是取代GBK1.0的正式國家標準。該標準收錄了27484個(gè)漢字，同時(shí)還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。目前簡(jiǎn)體WINDOWS的缺省內碼還是GBK，可以通過(guò)GB18030升級包升級到GB18030。不過(guò)GB18030相對GBK增加的字符，普通人是很難用到的，因此GBK還是我們目前最常用的簡(jiǎn)體中文字符集。

由于編碼方案太多且彼此之間不兼容，存在互相之間存在沖突的情況，即對于同一個(gè)編碼數值，在兩種不同的編碼方案中代表的是兩個(gè)不同的字符。這樣對于一些WEB應用來(lái)說(shuō)，由于多種語(yǔ)言文字的同時(shí)使用及存儲，需要采用一種統一的字符集。為此，國際標準化組織(ISO)制定了ISO10646碼表，而Unicode協(xié)會(huì )制定了Unicode規范，這兩個(gè)體系剛開(kāi)始時(shí)是獨立建立的，在1991年，雙方都認識到世界不需要兩個(gè)不兼容的字符集。于是它們開(kāi)始合并雙方的工作成果，并為創(chuàng )立一個(gè)單一編碼表而協(xié)同工作。從Unicode2.0開(kāi)始，Unicode項目采用了與ISO10646-1相同的字庫和字碼。目前兩個(gè)項目仍都存在，并獨立地公布各自的標準。Unicode協(xié)會(huì )現在的最新版本是2006年的Unicode5.0。ISO的最新標準是10646-3:2003。下面簡(jiǎn)單介紹一下幾種常見(jiàn)的編碼方式：

UCS(UniversalCharacter Set)是按ISO-10646定義的字符集，有兩種最常用編碼方式：UCS-2和UCS-4。

UCS-2：使用0-65535之間的數表示一個(gè)unicode字符。UCS-2無(wú)法表示所有的unicode字符，只能表示其前65536個(gè)字符（稱(chēng)為BasicMultilingual Plane，BMP）。我們一般經(jīng)常使用的UNICODE碼就是指這個(gè)編碼方案。

UCS-4:使用0-FFFFFFFF之間的數表示一個(gè)unicode字符，但為了和unicode體系兼容(unicode體系是一個(gè)20bit系統），ISO-10646表示所有定義的字符將不超過(guò)10FFFF。UCS-4可以表示所有的unicode字符。

Unix下使用 UCS-2/UCS-4會(huì )導致非常嚴重的問(wèn)題，因為有一些特殊的字符,比如 ''\0'' 或''/'',它們在文件名和其他C的庫函數參數里都有特別的含義，C語(yǔ)言使用''\0''作為字符串結尾，而Unicode里恰恰有很多字符都有一個(gè)字節為0，這樣一來(lái)，C語(yǔ)言的字符串函數將無(wú)法正常處理Unicode，除非把世界上所有用C寫(xiě)的程序以及他們所用的函數庫全部換掉。

為了解決這個(gè)問(wèn)題，于是產(chǎn)生了將Unicode編碼規則和計算機的實(shí)際編碼對應起來(lái)的一個(gè)規則，UTF,英文為UCSTransformationFormat，即UCS轉換格式，目前常用的有UTF-8、UTF-16、UTF-32三種。（還有UTF-7在此就不介紹了）。正如名字所示，它們分別使用8位、16位、32位比特對UCS進(jìn)行編碼。

UTF-8：一種變長(cháng)的Unicode編碼方式，使用1到4個(gè)字節表示一個(gè)字符。這種方式的最大好處，是UTF－8保留了ASCII字符的編碼作為它的一部分，因此在A(yíng)SCII表示的128個(gè)字符在UTF-8的編碼沒(méi)有變化，它的兼容性比較好。UTF-8在目前WEB應用上使用很廣泛。

UTF-16:一種變長(cháng)Unicode編碼方式，使用兩個(gè)或者四個(gè)字節表示一個(gè)字符。這種編碼方式比較節省空間，因為它把最常使用的字符都用兩個(gè)字節來(lái)表示，而那些不常用的字節則用兩個(gè)或四個(gè)字節來(lái)表示。但對于英文字符來(lái)說(shuō)，它要用兩個(gè)字節來(lái)編碼。

UTF-32:一種固定長(cháng)度的Unicode編碼方式，使用四個(gè)字節表示一個(gè)字符，它適用在內存很充足，需要定長(cháng)的編碼場(chǎng)合。

2、ORACLE數據庫的字符集

ORACLE的字符集名字一般由以下部分組成：語(yǔ)言或區域、表示一個(gè)字符的比特位數、標準字符集名稱(chēng)（可選項，S或C，表示服務(wù)器或客戶(hù)端）。ORACLE字符集UTF8與UTFE不符合此規定，其它基本都是這種格式。

對于US7ASCII，表示區域是US，用7個(gè)比特位表示一個(gè)字符，標準的字符集名稱(chēng)為ASCII。

對于中文字符集ZHS16GBK，表示簡(jiǎn)體中文（ZHT為繁體中文），一個(gè)字符需要16位比特，標準的字符集名稱(chēng)為GBK。而ZHS16CGB231280表示簡(jiǎn)體中文，一個(gè)字符需要16位比特，標準的字符集名稱(chēng)為GB231280，屬于我們前面提過(guò)的1981年發(fā)布的GB2312－80標準。雖然我們說(shuō)，GBK編碼標準是GB2312編碼標準的擴展，但是數據庫字符集ZHS16GBK與ZHS16CGB231280之間卻不是嚴格的超集與子集的關(guān)系，主要是有些漢字的編碼在兩個(gè)字符集中的數值是不同的，因此它們進(jìn)行字符集轉換時(shí)會(huì )出現問(wèn)題。

在本文中，有時(shí)候使用的是標準字符集名稱(chēng)，有時(shí)候又需要使用ORACLE字符集的名稱(chēng)，因此希望大家明白兩者之間的對應關(guān)系。

ORACLE數據庫有國家字符集（nationalcharacter set）與數據庫字符集(databasecharacterset)之分。兩者都是在創(chuàng )建數據庫時(shí)需要設置的。國家字符集主要是用于NCHAR、NVARCHAR、NCLOB類(lèi)型的字段數據，而數據庫字符集使用很廣泛，它用于：CHAR、VARCHAR、CLOB、LONG類(lèi)型的字段數據；表名、列名、PL/SQL中的變量名；輸入及保存在數據庫的SQL和PL/SQL的源碼。

ORACLE支持的Unicode字符集有以下幾種，下面的列表給出了字符集的名稱(chēng)、對應的數據庫版本范圍、采用的Unicode的版本。

字符集

對應的數據庫版本范圍

Unicode的版本

AL24UTFFSS

7.2-8.1

1.1

UTF8

8.0-10g

2.1 (8.0-8.1.6)

3.0 (8.1.7-10g)

UTFE

8.0-10g

2.1 (8.0-8.1.6)

3.0 (8.1.7-10g)

AL32UTF8

9.0-10g

3.0 (9.0)

3.1 (9.2)

3.2 (10.1)

4.01(10.2)

AL16UTF16

9.0-10g

3.0 (9.0)

3.1 (9.2)

3.2(10.1)

4.01(10.2)

AL24UTFFSS：是ORACLE第一種支持Unicode的字符集，從7.2版本開(kāi)始使用，但是它支持的Unicode版本為1.1，因此從9i開(kāi)始就不支持此字符集了。

UTF8:是ORACLE從ORACLE8開(kāi)始使用的屬于UTF-8編碼的字符集，從ORACLE8.0到ORACLE8.16，Unicode版本為2.1，而ORACLE817到10g，采用的Unicode標準為3.0

UTFE：用于EBCDIC碼平臺上的數據庫Unicode字符集。因此它屬于專(zhuān)用系統使用的字符集，其它屬性與UTF8基本相同。

AL32UTF8：是從ORACLE9開(kāi)始使用的屬于UTF-8編碼的字符集，與UTF8相比，它采用的Unicode版本更新，在10g版本中使用的是Unicode4.01標準，而UTF8因為兼容性的考慮，在10g版本中用的是Unicode3.0標準。

AL16UTF16：是ORACLE第一種采用UTF-16編碼方式的字符集，從ORACLE9開(kāi)始使用，是作為缺省的國家字符集使用，它不能被用作數據庫的字符集。這是因為數據庫的字符集決定了SQL與PL/SQL源碼的編碼方式，對于UTF－16這種使用固定的兩個(gè)字節來(lái)表示英文字母的編碼方案來(lái)說(shuō)，確實(shí)不適于用作數據庫的字符集，ORACLE目前采用的數據庫字符集都是基

于A(yíng)SCII或EBCDID作為子集的編碼方案。

從以上幾種字符集的介紹來(lái)看，Unicode字符集一般使用UTF8和AL32UTF8。如果數據庫版本都在9i及其以上，不需要考慮ORACLE8的數據庫，建議使用AL32UTF8字符集，它采用的Unicode標準要比UTF8采用的Unicode標準更新，支持的字符也更多一些。如果要考慮ORACLE8數據庫，建議使用UTF8字符集，它的兼容性好，在ORACLE8及8I數據庫上使用AL32UTF8字符集容易出現問(wèn)題。

3、如何選擇合適的數據庫字符集

前面我們介紹了字符集的一些概念，并對ORACLE數據庫的常用幾個(gè)字符集有了一些了解，下面就具體對數據庫字符集的選擇闡述一些個(gè)人的觀(guān)點(diǎn)：

3.1、數據庫需要存儲的數據類(lèi)型是字符集選擇的首要考慮目標。

由于數據庫的主要功能在于存儲數據，因此要保證數據的正確性。采用何種數據庫字符集需要看存儲數據是何種類(lèi)型的。對于只存儲英文信息的數據庫等來(lái)說(shuō)，一般采用US7ASCII或WE8ISO8859P1等單字節的字符集就比較合適，在性能和空間上也是最優(yōu)，如果采用ZHS16GBK編碼，雖然可以使用，但從數據庫字符集本身的含義來(lái)說(shuō)，屬于不恰當的選擇。同樣，存儲了中文信息的數據庫，如果采用單字節的字符集，也是不合適的。在這種情況下，數據庫的字符集雖然是US7ASCII或WE8ISO8859P1編碼，但里面存儲的數據編碼實(shí)際上卻是另外的編碼格式，這種不一致的情況很容易引起問(wèn)題，建議不要這樣使用。ORACLE提供了很多種類(lèi)的字符集供客戶(hù)選擇，就是要滿(mǎn)足各種文字不同的編碼需要。

3.2、字符集的選擇需要優(yōu)先考慮應用程序的需要。

目前出于國際化的需要，軟件需要可以對不同的語(yǔ)言文字進(jìn)行處理，尤其一個(gè)系統中需要容納多種語(yǔ)言文字的時(shí)候，一般都會(huì )采用Unicode這樣的通用解決方案，即使會(huì )有一些空間和運行效率的損失也是值得的。此時(shí)數據庫字符集建議可以采用AL32UTF8或UTF8編碼，一種比較理想的模式就是由程序負責編碼格式的轉換，而數據庫只提供一個(gè)透明的數據存儲。

上圖中，客戶(hù)在應用程序中輸入數據，此時(shí)數據的編碼格式是由客戶(hù)操作系統的區域及語(yǔ)言設置決定的，如在簡(jiǎn)體中文XP的環(huán)境下，輸入的中文編碼屬于GBK編碼。在客戶(hù)輸入結束后，程序首先判斷客戶(hù)的本地環(huán)境，并把編碼轉換成UNICODE，并通過(guò)NET傳送到服務(wù)器端。由于客戶(hù)端與服務(wù)器數據庫的字符集均為UTF8格式，ORACLE在傳送過(guò)程中不會(huì )進(jìn)行字符轉換，直接把數據按UTF8格式存儲到數據庫中。查詢(xún)時(shí)是一個(gè)反向的過(guò)程，應用程序從數據庫中取出UTF8編碼的數據，再由應用程序根據客戶(hù)的本地環(huán)境，把UTF8編碼的數據轉換成客戶(hù)本地的編碼格式，最后把結果數據顯示給客戶(hù)。此方案的關(guān)鍵在于應用程序要能很好的支持UNICODE編碼，編碼的轉換由應用程序來(lái)負責，數據庫只是提供了一個(gè)數據存儲功能。

對于部分程序來(lái)說(shuō)，由于對UNICODE支持不夠，沒(méi)有提供編碼的轉換功能，則可以使用ORACLE提供的字符集轉換功能來(lái)實(shí)現同樣的目的。

從上圖可以看到，客戶(hù)在應用程序中輸入數據，此時(shí)數據的編碼格式是由客戶(hù)操作系統的區域及語(yǔ)言設置決定的，如在簡(jiǎn)體中文XP的環(huán)境下，輸入的中文編碼屬于GBK編碼。在客戶(hù)輸入結束后，程序直接把數據并通過(guò)NET傳送到服務(wù)器端。由于客戶(hù)端與服務(wù)器數據庫的字符集不一致，因此ORACLE會(huì )把客戶(hù)端的編碼轉換成UTF8格式，再把數據按UTF8格式存儲到數據庫中。這種方案的優(yōu)點(diǎn)就是程序可以不用支持UNICODE，由ORACLE數據庫自動(dòng)進(jìn)行轉換。由于數據庫的字符集為UTF8，是其它字符集的超集，因此在轉換過(guò)程中不會(huì )發(fā)生數據丟失的情況。對于英文的字符符號，在UTF8中使用單字節存儲，轉換的工作量很小，可以忽略，而對于一些亞洲字符集，在UTF8中一般需要兩到三個(gè)字節存儲，需要的數據庫空間增加，而且轉換的工作量也相對大一些，性能會(huì )有一些損失。

4、與字符集相關(guān)的問(wèn)題分析

4.1、在UTF8環(huán)境下運行SQL語(yǔ)句報錯的問(wèn)題：

我們前面講過(guò)，SQL*PLUS工具不提供編碼自動(dòng)轉換的功能，當數據庫字符集為UTF8，客戶(hù)端的NLS_LANG如果也是UTF8，那么在SQL*PLUS中運行SQL語(yǔ)句時(shí)，語(yǔ)句全是英文，不會(huì )出現問(wèn)題，如果語(yǔ)句包含了中文或其它一些特殊字符，SQL語(yǔ)句運行時(shí)就會(huì )報錯。對于返回的含中文的結果，SQL*PLUS也會(huì )顯示亂碼。

造成此錯誤的原因在于當SQL語(yǔ)句中包含漢字等一些特殊字符時(shí)，由于這些字符的編碼屬于GBK，ORACLE沒(méi)有進(jìn)行字符轉換，而是直接把SQL語(yǔ)句送到服務(wù)器上進(jìn)行解析。此時(shí)服務(wù)器的字符集是UTF8，因此它按UTF8編碼格式對SQL語(yǔ)句中GBK編碼的字符解析時(shí)就會(huì )產(chǎn)生錯誤。如果把客戶(hù)端的NLS_LANG設置為本地環(huán)境的字符集，如ZHS16GBK，此時(shí)可以直接在SQL*PLUS中輸入包含中文的SQL語(yǔ)句，ORACLE在把SQL語(yǔ)句提交到服務(wù)器時(shí)會(huì )自動(dòng)轉換成UTF8編碼格式，因此SQL語(yǔ)句可以正常運行。對于英文字母，由于它在UTF8中的編碼數值采用的還是ASCII的編碼數值，因此英文字母可以直接使用而不需要轉換，這就是如果SQL語(yǔ)句或輸出結果全是英文時(shí)不會(huì )出現錯誤的原因。

正確的做法是先把需要運行的SQL做成腳本文件，用代碼轉換工具把它轉換成UTF8編碼格式的文件，（注意！XP中的記事本是提供了代碼轉換功能的，可以在保存文件或選擇文件另存為的時(shí)候，彈出的對話(huà)框最后一項，編碼，選擇UTF8，再保存，即可把文件轉換成UTF8編碼格式）。完成后用IE打開(kāi)這個(gè)腳本，選擇編碼－》UTF8，觀(guān)察此時(shí)SQL腳本是否含有亂碼或“？”符號。如果沒(méi)有，說(shuō)明編碼格式已經(jīng)是UTF8了，此時(shí)在SQL*PLUS中運行這個(gè)腳本就不會(huì )產(chǎn)生錯誤了。運行結束后，輸出的結果中如果包含中文，需要把結果SPOOL輸出到一個(gè)文件中，然后用代碼轉換工具把這個(gè)結果文件由UTF8轉換成本地編碼格式，再用寫(xiě)字板打開(kāi)，才能看到正常顯示的漢字。由于IE具有代碼轉換功能，因此也可以不用代碼轉換工具，直接在IE中打開(kāi)輸出的結果文件，選擇UTF8編碼，也能正常顯示含中文的結果文件。

4.2、數據庫出現亂碼的問(wèn)題：

數據庫出現亂碼的問(wèn)題主要和客戶(hù)的本地化環(huán)境，客戶(hù)端NLS_LANG設置，服務(wù)器端的數據庫字符集設置這三者有關(guān)，如果它們的設置不一致或者某個(gè)設置錯誤，就會(huì )很容易出現亂碼，下面我們簡(jiǎn)要介紹以下幾種情況：

4.2.1、數據庫字符集設置不當引起的亂碼：

這種錯誤是由于數據庫字符集選擇錯誤而引起的。我們前面講過(guò)，由于每種語(yǔ)言文字都有一些自己特殊的字符，甚至一些字符的寫(xiě)法都有不同的講究，因此即使對于歐美國家來(lái)說(shuō)，也不是可以隨便通用的。像西歐的字符集標準ISO8859-1是8位編碼，它就有自己的一些特殊符號，這些字符在US7ASCII編碼中找不到對應的編碼值。如果需要使用這些特殊符號，就必須選用本地字符集或者是它的超集的字符集。如果選用的字符集兩者都不是，那么在數據庫存儲的數據實(shí)際編碼和數據庫字符集的設置就產(chǎn)生了不一致，很容易產(chǎn)生亂碼。

例如：一個(gè)存儲簡(jiǎn)體中文字符的數據庫，它的字符集選用了US7ASCII，當它的客戶(hù)端NLS_LANG也選用US7ASCII時(shí)，這個(gè)系統單獨使用是沒(méi)有問(wèn)題的，因為兩者設置一致，因此ORACLE不會(huì )進(jìn)行字符集的轉換，客戶(hù)輸入的GBK碼被直接在數據庫中存儲起來(lái)，當查詢(xún)數據時(shí)，實(shí)際客戶(hù)端取出來(lái)的數據也是GBK的編碼，因此顯示也是正常的。但當其它的系統需要從這個(gè)數據庫取數據，或者它的數據要EXP出來(lái)，IMP到其它數據庫時(shí)，問(wèn)題就會(huì )開(kāi)始出現了。其它系統的字符集一般是ZHS16GBK，或者其它系統客戶(hù)端的NLS_LANG設置為ZHS16GBK，此時(shí)必然會(huì )產(chǎn)生字符集的轉換。雖然數據庫字符集設置為US7ASCII，但我們知道，實(shí)際存儲的數據編碼是ZHS16GBK的?？上RACLE不會(huì )知道，它會(huì )把存儲的ZHS16GBK編碼數據當作US7ASCII編碼的數據，按照US7ASCII轉換成ZHS16GBK的轉換算法進(jìn)行轉換，可以想象，這種情況下，亂碼的產(chǎn)生是必然的。

結論是：如果要選擇一個(gè)非本地環(huán)境的數據庫字符集，在不需要考慮和其它系統的數據接口和數據交換的情況下，或者你有面對這種麻煩的心理準備的話(huà)，那么這種選擇是可行的，但是別忘了數據庫字符集一定要和客戶(hù)端的NLS_LANG保持一致。

4.2.2、數據庫字符集與客戶(hù)端NLS_LANG設置不同引起的亂碼：

由于ORACLE提供了字符集的轉換功能，因此數據庫字符集與客戶(hù)端NLS_LANG設置不同是可以接受的，前提條件是數據庫的字符集必須是客戶(hù)端NLS_LANG設置字符集的超集，那么由于客戶(hù)端使用的字符是屬于數據庫字符集中的一部分，因此不會(huì )產(chǎn)生轉換時(shí)數據丟失及亂碼的情況。

例如：對于一個(gè)需要存儲簡(jiǎn)體文信息的數據庫來(lái)說(shuō)，它的字符集設置和客戶(hù)端NLS_LANG設置一般可以使用ZHS16GBK編碼。但是如果數據庫字符集選用了UTF8的話(huà)，也是可以的，因為ZHS16GBK編碼屬于UTF8的子集。ORACLE在數據庫與客戶(hù)端進(jìn)行數據交換時(shí)自動(dòng)進(jìn)行編碼的轉換，在數據庫中實(shí)際存儲的也是UTF8編碼的數據。此時(shí)其它數據庫和此數據庫也可以正常的進(jìn)行數據交換，因為ORACLE會(huì )自動(dòng)進(jìn)行數據的轉換。在實(shí)際使用中，遇到過(guò)繁體XP的字符集ZHT16MSWIN950轉換成AL32UTF8字符集時(shí)，一些特殊的字符和個(gè)別冷僻的漢字會(huì )變成亂碼。后來(lái)證實(shí)是XP需要安裝一個(gè)字庫補丁軟件，最后順利解決此問(wèn)題。

結論：對于數據庫字符集為UTF8，而客戶(hù)端采用本地字符集的情況，最好進(jìn)行測試驗證，因為UNICODE標準本身發(fā)展很快，一些客戶(hù)端的操作系統對UNICODE標準支持的力度不一致，有些操作系統支持不好，有些特殊字符在轉換后會(huì )產(chǎn)生亂碼。由于這個(gè)話(huà)題已經(jīng)超出了本文的范疇，在此就不詳細討論了。

4.2.3、客戶(hù)端NLS_LANG與本地化環(huán)境不同引起的亂碼：

一般情況下，客戶(hù)端NLS_LANG與本地化環(huán)境采用了不同的字符集會(huì )出現亂碼，除非本地化環(huán)境的字符集是客戶(hù)端NLS_LANG設置字符集的子集。如果把客戶(hù)端NLS_LANG設置為UTF8就屬于這種情況，由于目前還沒(méi)有可以直接使用UNICODE字符集的操作系統，因此客戶(hù)本地化環(huán)境使用的字符集只能是某種語(yǔ)言支持的字符集，它屬于UTF8的子集。下面我們就著(zhù)重討論這種情況。

雖然目前WINDOWS的內核是支持UNICODE的，但是WINDOWS并不支持直接顯示UNICODE編碼的字符,而且它并不知道目前的字符采用了何種字符集，所以默認情況下，它使用缺省的代碼頁(yè)來(lái)解釋字符。因此，對于其它類(lèi)型的編碼，需要先進(jìn)行轉換，變成系統目前的缺省代碼頁(yè)支持的字符集才能正常使用。

WINDOWS中的缺省代碼頁(yè)是由控制面板設置中的語(yǔ)言及區域的選擇所決定的，屬于客戶(hù)本地化的環(huán)境設置。簡(jiǎn)體中文WINDOWS的字符編碼就是GBK，它的缺省代碼頁(yè)是936。對于其它非WINDOWS的操作系統，我們可以把它們目前缺省使用的字符集作為用戶(hù)的本地化環(huán)境設置。另外，我們使用的大部分工具，如寫(xiě)字板，SQL*PLUS等，它們沒(méi)有提供編碼轉換功能，因此在客戶(hù)端直接輸入或查詢(xún)數據往往都會(huì )遇到亂碼的問(wèn)題，必須由應用程序或一些工具去做編碼的轉換，才能保證正常的使用。比如SQL*PLUS遇到的問(wèn)題，我們在4.1節中已經(jīng)進(jìn)行了詳細的論述。

5、最后的結論及建議：

以上不厭其煩的列舉了種種因為選用了不恰當的數據庫字符集而出現的問(wèn)題，最后總結歸納起來(lái)，以下幾點(diǎn)就是我個(gè)人的建議了：

1)一般情況下，建議優(yōu)先考慮客戶(hù)的本地化環(huán)境，選用本地通用的字符集作為數據庫的字符集和客戶(hù)端NLS_LANG的設置，使得數據庫、客戶(hù)端NLS_LANG、客戶(hù)端操作系統三者的字符集可以完全兼容，這樣出現的問(wèn)題和麻煩最少。就簡(jiǎn)體中文而言，目前最常用的字符集是ZHS16GBK，建議大家選用。

2)如果系統需要支持多語(yǔ)言，采用了UNICODE標準，那么ORACLE數據庫字符集在版本9以上可以選用AL32UTF8，如果涉及到ORACLE8及8i的數據庫，字符集可以選用UTF8。

3)如果應用程序完全支持UNICODE，可以根據客戶(hù)的本地化環(huán)境自動(dòng)轉換編碼，則客戶(hù)端的NLS_LANG可以設置成和數據庫服務(wù)器端字符集完全一致。如果應用程序不能自動(dòng)進(jìn)行編碼的轉換或需要在客戶(hù)端進(jìn)行一些管理維護活動(dòng)，則建議把客戶(hù)端的NLS_LANG設置成本地環(huán)境使用的字符集，由ORACLE來(lái)進(jìn)行編碼的轉換工作。此時(shí)需要對客戶(hù)端的操作系統進(jìn)行驗證測試，因為目前各個(gè)操作系統對UNICODE標準支持的程度不同，有時(shí)會(huì )出現一些特殊字符轉換不正常的情況。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久