亚洲无线观看国产高清_ python中的編碼與解碼

https://www.cnblogs.com/shine-lee/p/4504559.html

編碼與解碼

首先，明確一點(diǎn)，計算機中存儲的信息都是二進(jìn)制的

編碼/解碼本質(zhì)上是一種映射（對應關(guān)系），比如'a’用ascii編碼則是65，計算機中存儲的就是00110101，但是顯示的時(shí)候不能顯示00110101，還是要顯示'a'，但計算機怎么知道00110101是'a'呢，這就需要解碼，當選擇用ascii解碼時(shí)，當計算機讀到00110101時(shí)就到對應的ascii表里一查發(fā)現是'a'，就顯示為'a'

編碼：真實(shí)字符與二進(jìn)制串的對應關(guān)系，真實(shí)字符→二進(jìn)制串

解碼：二進(jìn)制串與真實(shí)字符的對應關(guān)系，二進(jìn)制串→真實(shí)字符

ASCII & UTF-8

大家熟知的ASCII以1字節8個(gè)bit位表示一個(gè)字符，首位全是0，表示的字符集明顯不夠

unicode編碼系統是為表達任意語(yǔ)言而設計的，為了防止存儲上的冗余（比如，對應ascii碼的部分），其采用了變長(cháng)編碼，但變長(cháng)編碼給解碼帶來(lái)了困難，無(wú)法判斷是幾個(gè)字節表示一個(gè)字符

UTF-8是針對unicode變長(cháng)編碼設計的一種前綴嗎，根據前綴可判斷是幾個(gè)字節表示一個(gè)字符

如果一個(gè)字節的第一位是0，則這個(gè)字節單獨就是一個(gè)字符；如果第一位是1，則連續有多少個(gè)1，就表示當前字符占用多少個(gè)字節。

比如"嚴"的unicode是4E25（100111000100101），4E25處在第三行的范圍內（0000 0800-0000 FFFF），因此"嚴"的UTF-8編碼需要三個(gè)字節，即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，從"嚴"的最后一個(gè)二進(jìn)制位開(kāi)始，依次從后向前填入格式中的x，高位補0，得到"嚴"的UTF-8編碼是"11100100 10111000 10100101"。

python中的解碼和編碼

在python中，編碼解碼其實(shí)是不同編碼系統間的轉換，默認情況下，轉換目標是Unicode，即編碼unicode→str，解碼str→unicode，其中str指的是字節流

而str.decode是將字節流str按給定的解碼方式解碼，并轉換成utf-8形式，u.encode是將unicode類(lèi)按給定的編碼方式轉換成字節流str

注意調用encode方法的是unicode對象生成的是字節流，調用decode方法的是str對象（字節流）生成的是unicode對象，若str對象調用encode會(huì )默認先按系統默認編碼方式decode成unicode對象再encode，忽視了中間默認的decode往往導致報錯

自己寫(xiě)代碼時(shí)只需記住str字節流調用decode，unicode對象調用

s = u'嚴'

print type(s), s

第一行定義了一個(gè)unicode對象（不是utf8）

第二行會(huì )輸出u'\u4e25'

第三行輸出<type 'unicode'> 嚴

u = s.encode('utf8')

print type(u),u

倘若這時(shí)我用s.encode('utf8')，則將s使用utf-8編碼并將編碼結果保存為字節流

第二行輸出'\xe4\xb8\xa5'

第三行輸出<type 'str'> 涓

還有要注意的是，終端默認的編碼格式是gbk，windows cmd中可以通過(guò)chcp查看以及改變，也可以到注冊表修改終端默認編碼（HKEY_CURRENT_USER console或者powershell下的codepage），936為簡(jiǎn)體中文，65001為utf8，兩者都可顯示中文，但為了方便中文輸入，我將其默認設為936

當調用print函數將內容格式化輸出到終端時(shí)，會(huì )將unicode對象轉換為終端的編碼方式輸出，如上面第一次print的結果是正常的，print utf8字節流時(shí)，終端按其默認gbk解碼顯示時(shí)就會(huì )出問(wèn)題，這里恰巧'\xe4\xb8'為gbk下的“涓”

t = s.encode('utf8').decode('utf8')

第二行會(huì )輸出u'\u4e25'

文件的編碼格式

保存文本時(shí)也有編碼格式，比如txt文件保存可選擇則ASCII、utf8等，對py文件可在前兩行注明編碼方式# -*- coding: UTF-8 -*-

在python中讀取文件

fr = open('encode.py','r')

fstr = fr.read()

只要記住fstr是字節流，其他的操作參看上面即可

注：以上操作均在cmd或powershell下完成，在python自帶的解釋器下會(huì )有問(wèn)題，s=u'你好'，然后s，顯示的雖然是unicode對象，但是編碼卻是gbk的而不是unicode

參考

字符編碼簡(jiǎn)介 http://blog.csdn.net/trochiluses/article/details/8782019

chcp http://baike.baidu.com/link?url=_qaJTLxmRJoD5pPV8ykh7om7uHqtuCquD5wqAwfrTmCMg3Ii3F3s7r11xD6rqf6ZkzH_ljz-1DwzEXyXEi2_lq

python字符編碼與解碼 http://blog.csdn.net/trochiluses/article/details/16825269

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久