如何采集各大招標網(wǎng)站的招投標信息
如何監(jiān)控并采集各大招標網(wǎng)站的招標信息在網(wǎng)上聽很多做招投標網(wǎng)站的朋友說,每天都是有大量的招標信息需要整理,工作量大到驚人,而且最重要效率還是不高,在這里,筆者準備做一個關于采集招投標網(wǎng)站信息的一個教程,
如何監(jiān)控并采集各大招標網(wǎng)站的招標信息
在網(wǎng)上聽很多做招投標網(wǎng)站的朋友說,每天都是有大量的招標信息需要整理,工作量大到驚人,而且最重要效率還是不高,在這里,筆者準備做一個關于采集招投標網(wǎng)站信息的一個教程,此教程里面的方法可以采集目前網(wǎng)絡上大部分招投標網(wǎng)站。
此次的教程需要用到的是熊貓采集軟件,這是新一代的智能采集器,操作非常簡單容易,不需要專業(yè)基礎,新手首選。且功能特別強悍復雜,只要是瀏覽器能看到的內(nèi)容,都可以用熊貓批量的采集下來。如各種電話號碼郵箱,各種網(wǎng)站信息搬家,網(wǎng)絡信息監(jiān)控、網(wǎng)絡輿情監(jiān)測、股票資訊實時監(jiān)控等等。
熊貓采集器是唯一擁有正文自動解析功能功能的采集軟件,對于本案例涉及到的招投標的信息獲取,利用這個功能,會節(jié)省很大一部分的時間,從而我們的工作效率就會變的更高。這里我們首先以一個get 翻頁的招投標網(wǎng)站作為例子,后面再講一個針對post 翻頁的招投網(wǎng)站的例子,基本上所有網(wǎng)站所使用的方式都是這兩種之一了,第一個例子用的是江蘇招標網(wǎng),第二例子用的是四川省公共資源交易服務中心的里面的招標信息。
有需要的看官可以去百度收索一個熊貓采集軟件下載即可。熊貓的免費版就包含實現(xiàn)本演示示例的所需要的全部功能。
好了,下面進入我們的采集環(huán)節(jié)吧!
首先,我們打開我們這次采集需要的工具, 也就是熊貓采集器,點擊新建項目(標準)
這個時候是進入我們的基礎設置,在這里,我們可以給我們創(chuàng)建的項目命名一個名稱已方便我們以后好區(qū)分我們之前設置過的項目,當然,我們不設置也是可以的,因為我這里是采集招投標的信息,我就去了一個招標采集的名稱。

點擊下一步設置,進入標題列表頁及其翻頁設置,列表頁是包含我們要采集內(nèi)容的鏈接網(wǎng)址的頁面,比如百度搜索一個關鍵詞,會列出來很多網(wǎng)頁,這些網(wǎng)頁我們就可以認為是標題列表頁面。我們采集江蘇招標網(wǎng)的時候進入招標信息,里面就是我們要的標題列表頁。
下面我們將這個標題列表頁的網(wǎng)址拷貝到我們的軟件中來


點擊開始進行預分析的按鈕,會出現(xiàn)下圖的提示
如果我們需要翻頁采集,那么選擇是即可,不要則選擇否即可。我這里并不是說只采集一頁,所以我選擇的是,這個主要根據(jù)你們的實際情況來決定。下面post 的翻頁的案例,我們會通過選擇否去進行操作


點擊下一步設置,進入選擇內(nèi)容頁的設置,隨便選擇一個我們要采集的鏈接,會發(fā)現(xiàn)右邊我們要采集的鏈接全部被紅框框選起來了。那么這里我們就不要進行調(diào)整,直接再次下一步設置
來到內(nèi)容頁面模板管理,這里我會用到我剛剛說的熊貓正文自動解析功能,也就是方式2,由系統(tǒng)為我們自動自動分離出標題和正文,如圖所示:


這樣,一個普通的get 翻頁的招標網(wǎng)站就設置完成了。如果看官我們想通過方式1設置內(nèi)容的采集,那也是很簡單的,這里我就不詳細說了,下面的另一個例子我就用方式一來設置內(nèi)容的采集。這里我們點擊保存,確認出來查看結(jié)果就可以了。
通過結(jié)果可以看出,改網(wǎng)站上面的招標信息已經(jīng)被我們采集下來了。以后對改網(wǎng)站實行招標監(jiān)控只需要將我們的軟件定個時間運行即可,是不是感覺很好用而且設置還很簡單?
好了,下面筆者再演示一個post 翻頁的招標信息網(wǎng)站,希望可以幫助到大家
前面的兩步我們直接跳過,直接進入到標題列表及翻頁設置的環(huán)節(jié)。普通的標題列表頁我們在翻頁的時候,網(wǎng)址是有會有翻頁參數(shù)在變化的,而我們的以post 提交的翻頁網(wǎng)址是不會有任何變化,如下圖的我們要演示招標網(wǎng)站:


可以發(fā)現(xiàn),第二頁和第三頁網(wǎng)址是一模一樣的,后面的的頁數(shù)網(wǎng)址其實都是一樣的,


這種情況,在網(wǎng)站中實現(xiàn)這種效果可能有兩種可能,一直是框架頁面,它把真實的翻頁網(wǎng)址給隱藏了,只要我們找到真實的網(wǎng)址,利用真實網(wǎng)址采集即可。還有一種就是post 翻頁了,這個時候我們就需要用抓包工具來分析一下是post 的還是框架了,當然,這里我們講的肯定是post 翻頁了,所以在進入我們標題列表的設置時候,需要進行一個抓包工作, 現(xiàn)在的瀏覽器大部分都是自帶一個抓包工作的,你可以在你的瀏覽器空白處右擊一下,會出來一個小界面,點擊里面的審查元素,如下圖:
,點擊一下:
到這里,我們就來看看我們的列表頁是如何翻頁了,先點擊第二頁,發(fā)現(xiàn)如下圖所示:


我們看到一個post ,說明了這個網(wǎng)頁是post 的翻頁的,我們點擊打開看看里面的參數(shù)
將我們的響應網(wǎng)址拷貝到熊貓中去,由于是post 的翻頁,所以我們在分析的時候要用

post

的方式:
,點擊開始分析:
如果選擇的是,系統(tǒng)會將post

提交的參數(shù)默認提供給我們,但是有時候未必會準備,

所以我們以抓包的參數(shù)以及參數(shù)值為準,只需將參數(shù)值粘貼復制到熊貓中即可,選擇否的話那么所有的參數(shù)我們就復制粘貼進去即可
,仔細將上面的參數(shù)和你抓包的參數(shù)進行對比,最好和抓包的一樣,不多不少。否則可能出現(xiàn)我們不想要的結(jié)果。下面我們在post 翻頁里面進行翻頁處理。
在我們上圖翻頁參數(shù)框填寫一個3,點擊post 參數(shù)驗證,看右側(cè)是什么效果,如下圖:

