將知乎收藏文章轉(zhuǎn)到印象筆記
將知乎收藏文章轉(zhuǎn)到印象筆記二在很久之前寫過一篇Python 爬蟲系列-將知乎收藏批量轉(zhuǎn)入Evernote/印象筆記中、寫完之后沒很久沒做維護(hù),最近重新登陸知乎的時候發(fā)現(xiàn)很多朋友給我留言說腳本失效不能使


將知乎收藏文章轉(zhuǎn)到印象筆記二
在很久之前寫過一篇Python 爬蟲系列-將知乎收藏批量轉(zhuǎn)入Evernote/印象筆記中、寫完之后沒很久沒做維護(hù),最近重新登陸知乎的時候發(fā)現(xiàn)很多朋友給我留言說腳本失效不能使用、于是我重新對知乎網(wǎng)站收藏頁面進(jìn)行研究并開始著手修改腳本。
問題主要在兩個方面
1. 當(dāng)知乎收藏文章超過20篇之后、就不能發(fā)送到印象筆記/evernote中
2. 知乎網(wǎng)站改版之后、導(dǎo)致原來腳本里面使用" 正則表達(dá)式" 獲取文章標(biāo)題的功能失敗。



HTML/XML語言的第三方庫。如果大家有解析HTML/XML

腳本功能分析
分析用戶輸入的知乎收藏地址、需要完成如下操作
1. 在收藏頁面中提取到所有的單個收藏頁面的URL 地址
2. 如果文章超過20篇、需要吧分頁地址提取出來
3. 訪問分頁地址、吧分頁里面的URL 也提取出來
4. 訪問每一個單獨的收藏URL 、提出里面文章標(biāo)題
5. 訪問每一個單獨的收藏URL 、提取里面的文章內(nèi)容
6. 通過郵件將文章內(nèi)容發(fā)送到印象筆記/Evernote中
上面基本上就是我們的腳本所要做的功能。
功能實現(xiàn)
由于要分析分頁地址、所以比上一次的腳本多寫了一個函數(shù)、主要功能就是用于判斷是否存在分頁地址。整個腳本中用3個函數(shù)來完成。
先看看需要用到的模塊

此函數(shù)用于分析提取收藏文章分頁地址、實現(xiàn)方式很簡單、通過for 循環(huán)提供N 多的分頁地址進(jìn)去、然后用" 正則表達(dá)式" 去匹配內(nèi)容、如果內(nèi)容存在即認(rèn)為分頁地址正確、然后把地址添加到列表中、如果" 正則表達(dá)式" 返回None 說明內(nèi)容匹配失敗、此地址不是正確的分頁地址。循環(huán)結(jié)束。
具體代碼如下
,



此函數(shù)主要功能通過對知乎收藏頁面以及收藏分頁地址進(jìn)行分析、然后提取出單個的收藏文章URL 地址、寫入到列表中。
具體代碼如下

當(dāng)?shù)诙€函數(shù)執(zhí)行完成之后我們就已經(jīng)得到所有的單個收藏文章的URL 地址、剩下的工作就把這些URL 分析出來、然后通過郵件發(fā)送到印象筆記/Evernote中。
,




URL 傳遞


URL

的。
完整代碼下載
到此所有的功能完成、我這邊36條收藏文章40S 轉(zhuǎn)發(fā)完成。更多文章沒有測試過、如果你在使用過程中有問題請和我聯(lián)系。
1. 代碼地址:GitHub 下載
2. 老版腳本:Python 爬蟲系列-將知乎收藏批量轉(zhuǎn)入Evernote/印象筆記中