卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

審查元素和源代碼的區(qū)別 爬蟲怎么爬取js動態(tài)生成的數(shù)據(jù)?

爬蟲怎么爬取js動態(tài)生成的數(shù)據(jù)?當(dāng)我使用jsup編寫爬蟲程序時,我通常會遇到HTML不返回的內(nèi)容。但是瀏覽器顯示了一些東西。所有這些都是分析頁的HTTP請求日志。分析頁面JS代碼來解決問題。1. 某些

爬蟲怎么爬取js動態(tài)生成的數(shù)據(jù)?

當(dāng)我使用jsup編寫爬蟲程序時,我通常會遇到HTML不返回的內(nèi)容。但是瀏覽器顯示了一些東西。所有這些都是分析頁的HTTP請求日志。分析頁面JS代碼來解決問題。

1. 某些頁面元素被隱藏->替換選擇器解決方案

2。一些數(shù)據(jù)保存在JS/JSON對象中->截取相應(yīng)的字符串,分析并求解

3。通過API接口調(diào)用-> forge請求獲取數(shù)據(jù)

有一個終極方法

4。使用無頭瀏覽器,如phantomjs或casperjs

有幾種方法,如phantomjs、WebKit、selenium等。如果您對爬行的性能沒有任何要求,請嘗試selenium或Watir。Web自動化測試腳本可以很好地使用它做很多事情。使用瀏覽器執(zhí)行JS,然后從dom獲取數(shù)據(jù)。另一方面,如果你知道JS是通過Ajax或API獲取數(shù)據(jù)的,你可以直接獲取數(shù)據(jù)源,得到JSON或XML,然后處理數(shù)據(jù)

Python 2.6 selenium-2.53.6 firebox 45.0 beautiful sound 3.2.1或Python 2.6 selenium-2.53.6 phantomjs 2.1.1