Character類(lèi)是一個(gè)包裝類(lèi)。
char這種數據類(lèi)型是基于原始的Unicode編碼的,儲存一個(gè)char用16個(gè)bit,因此定義characters也是16位定長(cháng)的實(shí)體集合。Unicode編碼標準發(fā)生了變化,數量級從\uFFFF到了\u10FFFF
對Unicode標準中的所有字符,16位已經(jīng)是不夠的了,即一部分字符并不能通過(guò)char來(lái)表示了。
我們稱(chēng)\u0000 to \uFFFF的字符集合,也就是用一個(gè)char能夠表示的字符的集合,為the Basic Multilingual Plane (BMP)(基本字符)。而稱(chēng)碼點(diǎn)(code point)大于\uFFFF的字符集合為supplementary characters(補充字符)。
為了解決補充字符表示的問(wèn)題,首先想到的是基本數據類(lèi)型int,一個(gè)int對象占了32bit,肯定可以表達所有的字符。
但是表示基本字符,只需要16位就夠了,表示一個(gè)補充字符,也只需要21位,高位的11位都為0,很浪費空間吶!
這個(gè)時(shí)候可以考慮使用到Character這個(gè)包裝類(lèi)了
允許一個(gè)Character的對象包裝一個(gè)或者兩個(gè)基本類(lèi)型為char的值,補充字符就擁有了兩個(gè)基本類(lèi)型為char的值。
其中,高位的char的取值范圍是\uD800--\uDBFF(4*16*16種),低位的char的取值范圍是\uDC00--\uDFFF(4*16*16種)。
4*16*16*4*16*16==0x10*16*16*16*16,可以完整表達所有補充字符。
Character有兩種構造方法,它接受不同的參數類(lèi)型。
一種是char,這樣自然不能實(shí)現補充字符的構造Character
另一種就是int,一個(gè)int的范圍是0x00000000-0xFFFFFFFF,可以拿任意一個(gè)字符的Unicode編碼值來(lái)作為參數
首先基數radix必須滿(mǎn)足在開(kāi)區間[Character.MIN_RADIX ,Character.MAX_RADIX ]之內,否則直接返回-1;
Character.MIN_RADIX = 2;Character.MAX_RADIX = 36,為什么是2和36呢?
然后ch(ch會(huì )被默認轉化成Character)也必須是有效的,ch怎樣才算有效呢?分以下幾種情況:
數字可以有很多,‘0’--‘9’:1.isDigit(ch)==true,也就是new Character(ch).getType(ch)==DECIMAL_DIGIT_NUMBER,也就是可能是一個(gè)數字。
'\u0030' through '\u0039', ISO-LATIN-1 digits ('0' through '9')'\u0660' through '\u0669', Arabic-Indic digits'\u06F0' through '\u06F9', Extended Arabic-Indic digits'\u0966' through '\u096F', Devanagari digits'\uFF10' through '\uFF19', Fullwidth digits
但是同時(shí)對應的那個(gè)數字不能大于或者等于radix,如果大于或者等于了radix還是返回-1,否則將數字返回2.ch是大寫(xiě)字母'A'('\u65')--'Z'('\u90')或者小寫(xiě)字母'a'('\u97')--'z'('\u122')中的一個(gè)時(shí),A/a對應是10,依次下去Z/z對應的就是35.
3.ch是全寬大寫(xiě)字母'A'('\uFF21')--'Z'('\uFF3A')或者全寬小寫(xiě)字母'a'('\uFF41')--'z'('\uFF5A')中的一個(gè)時(shí),A/a對應是10,依次下去Z/z對應的就是35.
但是同時(shí)對應的那個(gè)數字不能大于或者等于radix,如果大于或者等于了radix還是返回-1,否則將數字返回
public static int digit(int codePoint,int radix)本質(zhì)上是一樣的,只是char現在已經(jīng)不能表示所有的字符了,
有些補充字符只用字符的Unicode編碼值,用一個(gè)int來(lái)表示了,所以對應也用用一個(gè)int表示一個(gè)字符來(lái)傳參的方法
digit('A',16)和digit(65,16)的結果是一樣的。(int)'A'==65
首先基數radix有效(即在開(kāi)區間[2,36]內)
然后digit要有效,即0<=digit<radix(好像多少多少進(jìn)制一樣,最高36進(jìn)制,最低二進(jìn)制)
0-9分別對應的'0'-'9',10-35分別對應的小寫(xiě)的'a'-'z'
只有當radix和digit同時(shí)有效的時(shí)候才返回字符,否則返回'\u0000'空字符
Returns the int value that the specified Unicode character represents.?
返回指定的Unicode字符表示的int值。
For example, the character '\u216C' (the?roman numeral fifty) will return an int with a value of 50.
例如,字符'\ u216C'(羅馬數字50)將返回一個(gè)int 值50。
字符'0'-'9'就返回0-9
字符不管是'A'('\u65')--'Z'('\u90'),'a'('\u97')--'z'('\u122'),還是'A'('\uFF21')--'Z'('\uFF3A'),'a'('\uFF41')--'z'('\uFF5A')
都對應返回的是10-35
public static int getNumericValue(int codePoint)就是對應的用一個(gè)int表示一個(gè)字符來(lái)傳參的方法
簡(jiǎn)單講其實(shí)就是,radix確定基數,確定是多少進(jìn)制,從0到9,再從a到z(大小寫(xiě)不敏感),分別被視為0到9,10到35
像十六進(jìn)制一樣數字0到9表示了0-9,那9之后的10,11,12,13,14,15怎么表示呢,就把26個(gè)字母拿出來(lái)用啊。
最少是二進(jìn)制(MIN_RADIX),最多是三十六(10 26=36)進(jìn)制(MAX_RADIX)。
聯(lián)系客服