欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
Python中關(guān)于coding=utf

寫(xiě)了很久的Python了,每次寫(xiě)之前都要在開(kāi)頭加上coding=utf-8,只知道是設置編碼格式,但并沒(méi)有太在意,今天在寫(xiě)socket編程時(shí)才發(fā)現編碼格式的重要性。

一、關(guān)于開(kāi)頭coding=utf-8

開(kāi)頭的coding=utf-8和coding:utf-8的作用是一樣的。

它們的作用都是聲明python代碼的文本格式是utf-8編碼的,也即告訴python解釋器要按照utf-8編碼的方式來(lái)讀取程序。

如果不加這個(gè)聲明,無(wú)論代碼中還是注釋中有中文都會(huì )報錯。

以下幾種方式都可以:

# coding=utf-8

a = 10
print '這是內容'
# coding:utf-8

a = 10
print '這是內容'

注意一點(diǎn)無(wú)論中間是:還是=,其中coding與它們之間都不能有空格。否則也會(huì )報錯。

注意:以上是針對Python2.x的版本而言,因為在Python2.x的版本中文本默認采用的是ASCII編碼方式,而Python3.x的版本中,默認使用的就是UTF-8編碼格式,所以就不需要在前面進(jìn)行聲明了。

二、關(guān)于中文字符前面的u

首先,我們先從最開(kāi)始的ASCII編碼開(kāi)始說(shuō)起,我們知道計算機在處理程序時(shí)是看不懂文字的,它眼里只有0/1數字。所以最開(kāi)始的ASCII編碼是通過(guò)1個(gè)字節也就是8bit來(lái)表示英文字符。因為8個(gè)二進(jìn)制位可以表示出256中狀態(tài),所以用來(lái)表示英文字符綽綽有余,因此ASCII碼只用到了8個(gè)二進(jìn)制中的后七位,也就是可以得到128個(gè)字符。

但是像一些其他語(yǔ)言的字符想通過(guò)最多只能表示256個(gè)字符的ASCII編碼來(lái)表示就不太實(shí)際了。我們中華文明博大精深,光漢字就有超過(guò)6萬(wàn)多,所以必須有一種可以表示更多字符的編碼方式,如常見(jiàn)的GB2312編碼方式,它是通過(guò)兩個(gè)字節來(lái)表示一個(gè)漢字,這樣最多就可以表示256*256=65536個(gè)字符了。

而由于GB2312不能處理一些古漢語(yǔ)或者人名中的一些罕見(jiàn)字,所以導致了后面的GBK編碼、GB18030編碼方式的出現。其中,GBK也是雙字節的編碼方式,并且GBK字符集中共收入了21886個(gè)漢字和圖像符號。除此之外,GBK還可以與GB 2312完全兼容。

既然對于每種語(yǔ)言都有其對應的字符集,那么是否存在一種字符集可以包含世界上所有的符號呢。所以產(chǎn)生了Unicode編碼。Unicode編碼為世界上所有的語(yǔ)言的每個(gè)字符都設定了唯一的二進(jìn)制編碼,這樣就可以實(shí)現跨語(yǔ)言進(jìn)行文本轉換和傳輸了。

通過(guò)Unicode進(jìn)行編碼時(shí),不同字符所占用的位的長(cháng)度是不同的,也就是說(shuō)有的字符編碼僅需要幾位,而有的則需要十幾位,這就導致了如果都采用固定長(cháng)度的編碼時(shí),就會(huì )造成空間的浪費。所以就衍生出了對于Unicode編碼的不同實(shí)現方式,如常見(jiàn)到的UTF-8、UTF-16UTF-32,其中UTF-8是最為常用的編碼方式,它采用了變長(cháng)字節的表示方式,即使用的字節數是可變的,這個(gè)變化是根據字符對應的Unicode編號的大小所變化的,即編號小的字符使用的字節數就少,編號大的字符使用的字節數就多,因此,使用的字節個(gè)數從1到4個(gè)不等。

所以,回到主題,Python中用到的字符串前面加上u的作用是聲明對后面的字符串進(jìn)行unicode編碼,常用于中文字符串的處理。Unicode是書(shū)寫(xiě)國際文本的標準方法,如果你想用你的母語(yǔ)來(lái)寫(xiě)文本的時(shí)候,就需要一個(gè)支持Unicode的編譯器,Python允許處理Unicode文本,只需在字符串前加上前綴u即可。一般英文的字符串不需要進(jìn)行任何編碼的處理,但是當你使用中文的時(shí)候,就需要在前面加上u了。

最后再引用知乎上某個(gè)大佬舉的例子來(lái)加深理解一下:https://www.zhihu.com/question/23374078/answer/65352538

 

舉一個(gè)例子:It's 知乎日報

你看到的unicode字符集是這樣的編碼表:

I 0049
t 0074
' 0027
s 0073
  0020
知 77e5
乎 4e4e
日 65e5
報 62a5

每一個(gè)字符對應一個(gè)十六進(jìn)制數字。

計算機只懂二進(jìn)制,因此,嚴格按照unicode的方式(UCS-2),應該這樣存儲:

I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 01110011
  00000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
報 01100010 10100101

這個(gè)字符串總共占用了18個(gè)字節,但是對比中英文的二進(jìn)制碼,可以發(fā)現,英文前9位都是0!浪費啊,浪費硬盤(pán),浪費流量。

怎么辦?

UTF。

UTF-8是這樣做的:

1. 單字節的字符,字節的第一位設為0,對于英語(yǔ)文本,UTF-8碼只占用一個(gè)字節,和ASCII碼完全相同;

2. n個(gè)字節的字符(n>1),第一個(gè)字節的前n位設為1,第n+1位設為0,后面字節的前兩位都設為10,這n個(gè)字節的其余空位填充該字符unicode碼,高位用0補足。

這樣就形成了如下的UTF-8標記位:

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
... ...

于是,”It's 知乎日報“就變成了:

I 01001001
t 01110100
' 00100111
s 01110011
  00100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
報 11100110 10001010 10100101

和上邊的方案對比一下,英文短了,每個(gè)中文字符卻多用了一個(gè)字節。但是整個(gè)字符串只用了17個(gè)字節,比上邊的18個(gè)短了一點(diǎn)點(diǎn)。

另外一個(gè)漢字在UTF-8編碼的情況下可能需要三個(gè)字節,而使用gbk兩個(gè)字節就足夠了,所以有時(shí)候為了節省流量和硬盤(pán),在使用中文的時(shí)候,也有用gbk或者gbk2312編碼的。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
不可不知的Python字符編碼使用技巧(上)
[Python]MySQL中文字符與Python中文字符
小結Python的中文處理
編碼的秘密
SyntaxError: Non-ASCII character Python、Unicode和中文
Python字符編碼詳解
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久