問(wèn)題現象:
在Windows下使用Python讀文件時(shí),經(jīng)常遇到UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence錯誤。
在open函數參數中設置encoding='utf-8'也不能解決問(wèn)題,會(huì )出現UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte類(lèi)似錯誤。
問(wèn)題原因:
該問(wèn)題的根源在于Windows中與Unicode的編碼方法。
以系統自帶的記事本為例:
記事本“另存為”中有4種編碼方式,含義為:
其中Unicode相關(guān)編碼方式有3種,這3種編碼方式的區別不再贅述,我們可以從文件的頭部(即Windows中的特色!BOM:byte order mark)來(lái)區分一個(gè)文件是屬于哪種編碼。當頭部開(kāi)始的兩個(gè)字節為 FF FE時(shí),是UTF-16(LE)編碼;當頭部的兩個(gè)字節為FEFF時(shí),是UTF-16(BE)編碼;當頭部?jì)蓚€(gè)字節為EF BB時(shí),是UTF-8-sig編碼。
因此,錯誤信息中0xff說(shuō)明文件的編碼為UTF-16!因此,設置UTF-8編碼根本不解決問(wèn)題。
解決方法:
在open函數encoding參數中設置正確的文件編碼。
推薦使用chardet模塊,檢測文件編碼方式。chardet非標準庫模塊,需要安裝:pip install chardet
示例代碼:
- # coding=utf-8
- def check_charset(file_path):
- import chardet
- with open(file_path, "rb") as f:
- data = f.read(4)
- charset = chardet.detect(data)['encoding']
- return charset
- your_path = 你的文件路徑
- with open(your_path, encoding=check_charset(your_path)) as f:
- data = f.read()
- print(data)
聯(lián)系客服