網(wǎng)站爬蟲怎么爬取多個網(wǎng)站文章標題列表？

2018-09-10

1443

網(wǎng)友解答: 謝謝邀請，網(wǎng)絡(luò)爬蟲如何處理這個，其實是數(shù)據(jù)提取的那一步驟，首先我們要清楚知道網(wǎng)頁的頁面結(jié)構(gòu)，這是根本，因為網(wǎng)頁是一個樹形結(jié)構(gòu)，是有層次的。不然，我們是很難提取到我們想要的數(shù)據(jù)

網(wǎng)友解答:

謝謝邀請，網(wǎng)絡(luò)爬蟲如何處理這個，其實是數(shù)據(jù)提取的那一步驟，首先我們要清楚知道網(wǎng)頁的頁面結(jié)構(gòu)，這是根本，因為網(wǎng)頁是一個樹形結(jié)構(gòu)，是有層次的。不然，我們是很難提取到我們想要的數(shù)據(jù)，所以，心中要有這樣一個概念：網(wǎng)頁是結(jié)構(gòu)分層分明的樹形文檔。

在這里我以搜房網(wǎng)為例：http://esf.nb.fang.com/housing/，這個頁面，是一個小區(qū)的List頁面，我們現(xiàn)在要提取其中的小區(qū)名稱和URL。

首先，查看頁面的結(jié)構(gòu)

點擊右鍵，選擇查看選擇，得到如下這樣一個頁面。因為是一個List，所以有很多個小區(qū)，這些小區(qū)的信息應(yīng)該是在一個div樣式下面的。在這里我們看到這樣一行<div class="houselist"，這個就是我們要找的根div。

解析出我們想要的內(nèi)容-小區(qū)名稱、頁面URL

我們就可以使用xpath提取頁面中的內(nèi)容，在這里我們就可以這樣描述：

selectore_list = response.xpath('//div[@class="houseList"]/*/dl/dd/a[@class="plotTit"]')

這樣的話是提取的整個頁面的列表，我們還需要通過循環(huán)把每個小區(qū)的標題和頁面URL取出來，我們可以這樣寫：

for li in selector_list: title = li.xpath('./@href').extract()[0] urls = li.xpath('./text()').extract()[0]

這樣的話里面的標題和頁面url都提取出來的。關(guān)于xpath如何使用，可以查詢相關(guān)的課程學(xué)習(xí)。

以上就是整個提取過程，我的理解是只要熟悉頁面的結(jié)構(gòu)，然后對xpath的掌握，提取標題、爬取頁面后的數(shù)據(jù)提取都是比較簡單的一件事，希望對你有幫助。

歡迎大家留言討論。

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

相關(guān)推薦