python文本挖掘 python怎樣讀取文本文件里的中文？

2021-03-14

2756

python怎樣讀取文本文件里的中文？#在Windows環(huán)境中導入系統(tǒng)重新加載（系統(tǒng)）sys.setdefaultencoding系統(tǒng)（“utf-8”）導入refin=打開（”在.txt中“，”R“）

python怎樣讀取文本文件里的中文？

#在Windows環(huán)境中

導入系統(tǒng)

重新加載（系統(tǒng)）sys.setdefaultencoding系統(tǒng)（“utf-8”）

導入re

fin=打開（”在.txt中“，”R“）”通過讀取打開輸入文件

對于fin中的每一行：”通過行讀取文件內(nèi)容

行=每條線.strip(). 解碼（“GBK”，“UTF-8”），在處理前進行相關處理，包括轉(zhuǎn)換為Unicode等

打印行#打印原始字符

P2=重新編譯（ur“[^1-龥]”）中文的編碼范圍是：從“1到”

zh=“”。連接（P2。拆分（行））。條帶（）]諞zh=“，”（zh.拆分（））

print zh#print Chinese characters

關于正則匹配的一些基本知識，請看我的關于學習正則表達式的博客

~]；-*-編碼：UTF-8-*-這句話是告訴python程序中的文本是UTF-8編碼，這樣Python就可以根據(jù)UTF-8來讀取程序。在程序之前添加u是為了告訴python以下是Unicode編碼，它以Unicode格式存儲。