防止網(wǎng)頁(yè)被搜索引擎爬蟲(chóng)和網(wǎng)頁(yè)采集器收錄的方法匯總
下面的這些方法是可以標(biāo)本兼治的:1、限制IP地址單位時(shí)間的訪問(wèn)次數(shù) 分析:沒(méi)有哪個(gè)常人一秒鐘內(nèi)能訪問(wèn)相同網(wǎng)站5次,除非是程序訪問(wèn),而有這種喜好的,就剩下搜索引擎爬蟲(chóng)和討厭的采集器了。 弊端:一刀切,這
下面的這些方法是可以標(biāo)本兼治的:1、限制IP地址單位時(shí)間的訪問(wèn)次數(shù) 分析:沒(méi)有哪個(gè)常人一秒鐘內(nèi)能訪問(wèn)相同網(wǎng)站5次,除非是程序訪問(wèn),而有這種喜好的,就剩下搜索引擎爬蟲(chóng)和討厭的采集器了。 弊端:一刀切,這同樣會(huì)阻止搜索引擎對(duì)網(wǎng)站的收錄 適用網(wǎng)站:不太依靠搜索引擎的網(wǎng)站 采集器會(huì)怎么做:減少單位時(shí)間的訪問(wèn)次數(shù),減低采集效率
2、屏蔽ip 分析:通過(guò)后臺(tái)計(jì)數(shù)器,記錄來(lái)訪者ip和訪問(wèn)頻率,人為分析來(lái)訪記錄,屏蔽可疑Ip。 弊端:似乎沒(méi)什么弊端,就是站長(zhǎng)忙了點(diǎn) 適用網(wǎng)站:所有網(wǎng)站,且站長(zhǎng)能夠知道哪些是google或者百度的機(jī)器人 采集器會(huì)怎么做:打游擊戰(zhàn)唄!利用ip代理采集一次換一次,不過(guò)會(huì)降低采集器的效率和網(wǎng)速(用代理嘛)。
3、利用js加密網(wǎng)頁(yè)內(nèi)容 Note:這個(gè)方法我沒(méi)接觸過(guò),只是從別處看來(lái) 分析:不用分析了,搜索引擎爬蟲(chóng)和采集器通殺 適用網(wǎng)站:極度討厭搜索引擎和采集器的網(wǎng)站 采集器會(huì)這么做:你那么牛,都豁出去了,他就不來(lái)采你了
4、網(wǎng)頁(yè)里隱藏網(wǎng)站版權(quán)或者一些隨機(jī)垃圾文字,這些文字風(fēng)格寫(xiě)在css文件中 分析:雖然不能防止采集,但是會(huì)讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說(shuō)明或者一些垃圾文字,因?yàn)橐话悴杉鞑粫?huì)同時(shí)采集你的css文件,那些文字沒(méi)了風(fēng)格,就顯示出來(lái)了。 適用網(wǎng)站:所有網(wǎng)站 采集器會(huì)怎么做:對(duì)于版權(quán)文字,好辦,替換掉。對(duì)于隨機(jī)的垃圾文字,沒(méi)辦法,勤快點(diǎn)了。
5、用戶登錄才能訪問(wèn)網(wǎng)站內(nèi)容 * 分析:搜索引擎爬蟲(chóng)不會(huì)對(duì)每個(gè)這樣類型的網(wǎng)站設(shè)計(jì)登錄程序。聽(tīng)說(shuō)采集器可以針對(duì)某個(gè)網(wǎng)站設(shè)計(jì)模擬用戶登錄提交表單行為。 適用網(wǎng)站:極度討厭搜索引擎,且想阻止大部分采集器的網(wǎng)站 采集器會(huì)怎么做:制作擬用戶登錄提交表單行為的模塊
6、利用腳本語(yǔ)言做分頁(yè)(隱藏分頁(yè)) 分析:還是那句,搜索引擎爬蟲(chóng)不會(huì)針對(duì)各種網(wǎng)站的隱藏分頁(yè)進(jìn)行分析,這影響搜索引擎對(duì)其收錄。但是,采集者在編寫(xiě)采集規(guī)則時(shí),要分析目標(biāo)網(wǎng)頁(yè)代碼,懂點(diǎn)腳本知識(shí)的人,就會(huì)知道分頁(yè)的真實(shí)鏈接地址。 適用網(wǎng)站:對(duì)搜索引擎依賴度不高的網(wǎng)站,還有,采集你的人不懂腳本知識(shí) 采集器會(huì)怎么做:應(yīng)該說(shuō)采集者會(huì)怎么做,他反正都要分析你的網(wǎng)頁(yè)代碼,順便分析你的分頁(yè)腳本,花不了多少額外時(shí)間。
7、防盜鏈措施 (只允許通過(guò)本站頁(yè)面連接查看,如:Request.ServerVariables(HTTP_REFERER) ) 分析:asp和php可以通過(guò)讀取請(qǐng)求的HTTP_REFERER屬性,來(lái)判斷該請(qǐng)求是否來(lái)自本網(wǎng)站,從而來(lái)限制采集器,同樣也限制了搜索引擎爬蟲(chóng),嚴(yán)重影響搜索引擎對(duì)網(wǎng)站部分防盜鏈內(nèi)容的收錄。 適用網(wǎng)站:不太考慮搜索引擎收錄的網(wǎng)站 采集器會(huì)怎么做:偽裝HTTP_REFERER嘛,不難。
8、全flash、圖片或者pdf來(lái)呈現(xiàn)網(wǎng)站內(nèi)容 分析:對(duì)搜索引擎爬蟲(chóng)和采集器支持性不好,這個(gè)很多懂點(diǎn)seo的人都知道 適用網(wǎng)站:媒體設(shè)計(jì)類并且不在意搜索引擎收錄的網(wǎng)站 采集器會(huì)怎么做:不采了,走人
9、網(wǎng)站隨機(jī)采用不同模版 分析:因?yàn)椴杉魇歉鶕?jù)網(wǎng)頁(yè)結(jié)構(gòu)來(lái)定位所需要的內(nèi)容,一旦先后兩次模版更換,采集規(guī)則就失效,不錯(cuò)。而且這樣對(duì)搜索引擎爬蟲(chóng)沒(méi)影響。 適用網(wǎng)站:動(dòng)態(tài)網(wǎng)站,并且不考慮用戶體驗(yàn)。 采集器會(huì)怎么做:一個(gè)網(wǎng)站模版不可能多于10個(gè)吧,每個(gè)模版弄一個(gè)規(guī)則就行了,不同模版采用不同采集規(guī)則。如果多于10個(gè)模版了,既然目標(biāo)網(wǎng)站都那么費(fèi)勁的更換模版,成全他,撤。
10、采用動(dòng)態(tài)不規(guī)則的html標(biāo)簽 分析:這個(gè)比較變態(tài)。考慮到html標(biāo)簽內(nèi)含空格和不含空格效果是一樣的,所以< div >和< div >對(duì)于頁(yè)面顯示效果一樣,但是作為采集器的標(biāo)記就是兩個(gè)不同標(biāo)記了。如果每次頁(yè)面的html標(biāo)簽內(nèi)空格數(shù)隨機(jī),那么 采集規(guī)則就失效了。但是,這對(duì)搜索引擎爬蟲(chóng)沒(méi)多大影響。 適合網(wǎng)站:所有動(dòng)態(tài)且不想遵守網(wǎng)頁(yè)設(shè)計(jì)規(guī)范的網(wǎng)站。 采集器會(huì)怎么做:還是有對(duì)策的,現(xiàn)在html cleaner還是很多的,先清理了html標(biāo)簽,然后再寫(xiě)采集規(guī)則;應(yīng)該用采集規(guī)則前先清理html標(biāo)簽,還是能夠拿到所需數(shù)據(jù)。