python文本挖掘 python怎樣讀取文本文件里的中文?
python怎樣讀取文本文件里的中文?#在Windows環(huán)境中導入系統(tǒng)重新加載(系統(tǒng))sys.setdefaultencoding系統(tǒng)(“utf-8”)導入refin=打開(”在.txt中“,”R“)
python怎樣讀取文本文件里的中文?
#在Windows環(huán)境中
導入系統(tǒng)
重新加載(系統(tǒng))sys.setdefaultencoding系統(tǒng)(“utf-8”)
導入re
fin=打開(”在.txt中“,”R“)”通過讀取打開輸入文件
對于fin中的每一行:”通過行讀取文件內(nèi)容
行=每條線.strip(). 解碼(“GBK”,“UTF-8”),在處理前進行相關處理,包括轉(zhuǎn)換為Unicode等
打印行#打印原始字符
P2=重新編譯(ur“[^1-龥]”)中文的編碼范圍是:從“1到”
zh=“”。連接(P2。拆分(行))。條帶()]諞zh=“,”(zh.拆分())
print zh#print Chinese characters
關于正則匹配的一些基本知識,請看我的關于學習正則表達式的博客
~];-*-編碼:UTF-8-*-這句話是告訴python程序中的文本是UTF-8編碼,這樣Python就可以根據(jù)UTF-8來讀取程序。在程序之前添加u是為了告訴python以下是Unicode編碼,它以Unicode格式存儲。