python讀取word指定內(nèi)容 python-docx為什么不支持doc格式?
python-docx為什么不支持doc格式?Docx是一種開放格式。它本質(zhì)上是一個zip文件,可以用解壓軟件把它解壓到一個目錄中,包括幾個目錄,內(nèi)置圖片,所有的東西都在相應(yīng)的目錄中。文本的內(nèi)容存儲在
python-docx為什么不支持doc格式?
Docx是一種開放格式。它本質(zhì)上是一個zip文件,可以用解壓軟件把它解壓到一個目錄中,包括幾個目錄,內(nèi)置圖片,所有的東西都在相應(yīng)的目錄中。文本的內(nèi)容存儲在XML中,因此用Python解析它相對容易。
Doc是早期生成的文件,已關(guān)閉。一般來說,類似的軟件如OpenOffice或WPS會對格式進行解碼和支持,但不能保證完全支持。這比docx困難得多。
對于該庫的開發(fā)人員,我認為他沒有心思或需要做這樣的事情。
如果需要讀取doc文件,可以使用win32com模塊將doc轉(zhuǎn)換為docx,然后使用python_uux讀取內(nèi)容。