廣域網(wǎng)分布式Web爬蟲(chóng)
廣域網(wǎng)分布式Web 爬蟲(chóng)滕千紅(湖工,管院,1010831119)摘要:分析了廣域網(wǎng)分布式Web 爬蟲(chóng)相對(duì)于局域網(wǎng)爬蟲(chóng)的諸多優(yōu)勢(shì),提出了廣域網(wǎng)分布式Web 爬蟲(chóng)的3個(gè)核心問(wèn)題:Web 劃分、Agent
廣域網(wǎng)分布式Web 爬蟲(chóng)
滕千紅
(湖工,管院,1010831119)
摘要:分析了廣域網(wǎng)分布式Web 爬蟲(chóng)相對(duì)于局域網(wǎng)爬蟲(chóng)的諸多優(yōu)勢(shì),提出了廣域網(wǎng)分布式Web 爬蟲(chóng)的3個(gè)核心問(wèn)題:Web 劃分、Agent 協(xié)同和Agent 部署周繞這3個(gè)問(wèn)題,對(duì)目前學(xué)術(shù)界和商業(yè)界出現(xiàn)的多種實(shí)現(xiàn)方案和策略進(jìn)行了全面的綜述,深入討論了研究中遇到的問(wèn)題與挑戰(zhàn),并論述了廣域網(wǎng)分布式Web 爬蟲(chóng)的評(píng)價(jià)模型.最后,對(duì)未來(lái)的研究方向進(jìn)行了總結(jié)。
關(guān)鍵詞:搜索引擎;廣域網(wǎng)分布式爬蟲(chóng);Web 劃分;Agent 協(xié)同;Agent 部屬。
搜索引擎作為互聯(lián)網(wǎng)上一種有效的信息獲取渠道,與電子郵件、即時(shí)通信并稱(chēng)為互聯(lián)網(wǎng)三大基礎(chǔ)應(yīng)用。在人們的日常生活中發(fā)揮著重要的作用.然而,互聯(lián)網(wǎng)的飛速發(fā)展使搜索引擎面臨巨大的挑戰(zhàn).2008年1月發(fā)布的《第21次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,中國(guó)網(wǎng)站數(shù)量已達(dá)150萬(wàn)個(gè),比去年同期增長(zhǎng)了66萬(wàn)個(gè),增長(zhǎng)率達(dá)到78.4%:中國(guó)總網(wǎng)頁(yè)數(shù)為84.7億個(gè),年增長(zhǎng)率達(dá)到89.4%;網(wǎng)站總字節(jié)數(shù)已經(jīng)達(dá)到198 348GB.按照目前的統(tǒng)計(jì)數(shù)字,假設(shè)搜索引擎爬蟲(chóng)系統(tǒng)的網(wǎng)絡(luò)接入總帶寬為lOOMb /s ,即使這些帶寬被完全利用,僅下載中國(guó)的網(wǎng)頁(yè)就需要近200天.如此巨大的數(shù)據(jù)量,使得對(duì)網(wǎng)頁(yè)內(nèi)容和鏈接關(guān)系的處理必須由多機(jī)并行完成。分布式Web 爬蟲(chóng)是
,由多個(gè)可并發(fā)獲取Web 信息的Agent 構(gòu)成的Web 爬蟲(chóng)系統(tǒng),每個(gè)Agent 運(yùn)行于不同的計(jì)算資源之上,這些資源或集中部署在同一個(gè)局域網(wǎng)(10cal area network,簡(jiǎn)稱(chēng)LAN) 內(nèi)部,或分布在廣域l 網(wǎng)(wide area network。簡(jiǎn)稱(chēng)WAN) 的不同地理位置和網(wǎng)絡(luò)位置,每個(gè)Agent 以多進(jìn)程或多線(xiàn)程方式通過(guò)并發(fā)保持多個(gè)TCP 鏈接獲取Web 信息.部署于LAN 上的分布式Web 爬蟲(chóng)受到帶寬等因素的制約,已經(jīng)不能對(duì)Web 進(jìn)行快速而有效的抓?。趶V域網(wǎng)的分布式爬蟲(chóng)實(shí)現(xiàn)方案具有多點(diǎn)接入總帶寬較高、對(duì)Internet 負(fù)載較小、容易實(shí)現(xiàn)就近高效抓取以及可擴(kuò)展性強(qiáng)等優(yōu)點(diǎn),已經(jīng)成為學(xué)術(shù)界、商業(yè)界和開(kāi)源社區(qū)爬蟲(chóng)系統(tǒng)實(shí)現(xiàn)的優(yōu)選方案。廣域網(wǎng)分布式爬蟲(chóng)融合了分布式系統(tǒng)、并行計(jì)算及網(wǎng)絡(luò)測(cè)量等主題,具有很強(qiáng)的應(yīng)用價(jià)值與理論研究意義。
1、引言
在分布式Web 爬蟲(chóng)領(lǐng)域,商業(yè)界與學(xué)術(shù)界各自為戰(zhàn),許多優(yōu)秀的實(shí)現(xiàn)方法不是源自于學(xué)術(shù)界,而是來(lái)自于一些公司.出于商業(yè)因素的考慮,公司成果一般不通過(guò)論文公開(kāi)發(fā)表;而學(xué)術(shù)界的研究成果雖然公開(kāi),但是被大規(guī)模采用的并不多;另外,還有一些組織和個(gè)人以GPL(GNU general public license) 的方式開(kāi)發(fā)和發(fā)布自己的系統(tǒng).遺憾的是,這類(lèi)系統(tǒng)也很少以論文形式發(fā)表.部署在LAN 上的分布式Web 爬蟲(chóng)率先被提出,并得到廣泛的使用.較為著名的有早期的Google[舶,AltaVista 的Intnet Archive Crawlert31,Mercatert4I 等.但是,由于受到帶寬等瓶頸因素的制約,此種系統(tǒng)即使軟硬件的規(guī)模不斷擴(kuò)大,也只能獲取全體Web 信息中相對(duì)較小的一部分.為了
,解決上述問(wèn)題,人們提出了部署于廣域網(wǎng)環(huán)境的分布式Web 爬蟲(chóng).
1.1相關(guān)工作
近幾年來(lái),商業(yè)界和開(kāi)源社區(qū)出現(xiàn)了一些廣域網(wǎng)分布式爬蟲(chóng)系統(tǒng)(或搜索引擎) ,其思路一般是公司或組織向用戶(hù)提供爬蟲(chóng)程序.一方面,分布在各地的用戶(hù)運(yùn)行自己機(jī)器上的爬蟲(chóng)程序?yàn)楣咎峁?shù)據(jù);另一方面,公司為安裝有爬蟲(chóng)的用戶(hù)提供各種檢索服務(wù),如Yacy(http://yaey .net /) 的個(gè)性化匿名檢索,甚至將利潤(rùn)反饋給用戶(hù)(如 Faroo(http://www .faroo .corn /)) .在實(shí)現(xiàn)方面,這些系統(tǒng)有的是類(lèi)似于SETI@Home那樣的主從式結(jié)構(gòu)(如Majestic(http://www .majesticl2.co .uk0) ,屬于有調(diào)度中心的Agent 協(xié)同;有的是P2P 方式進(jìn)行分布式調(diào)度(如Faroo) ,即無(wú)調(diào)度中心的Agent 協(xié)同.這些系統(tǒng)的實(shí)現(xiàn)五花八門(mén),但是由于發(fā)展時(shí)間較短,規(guī)模相對(duì)較小.在學(xué)術(shù)方面,Cho 等人首次給出了分布式爬蟲(chóng)的分類(lèi)方法、評(píng)價(jià)指標(biāo)等一系列基本概念,并提出基于廣域網(wǎng)分布式爬蟲(chóng)與部署于LAN 的系統(tǒng)相比,具有高可擴(kuò)展性和減少I(mǎi)nternet 負(fù)載的優(yōu)點(diǎn),為廣域網(wǎng)分布式爬蟲(chóng)的研究奠定了基礎(chǔ).UbiCrawert 擴(kuò)展了一些概念,并聲稱(chēng)可以支持基于廣域網(wǎng)的分布式平臺(tái).Dustin B
等人對(duì)多種分布式爬蟲(chóng)進(jìn)行了比較,提出廣域網(wǎng)爬蟲(chóng)是解決爬蟲(chóng)系統(tǒng)帶寬瓶頸的有效方法.Yahoo 研究院的Baeza .Yates 等人在其綜述中將分布式爬蟲(chóng)定義為“原則上某些節(jié)點(diǎn)可以分布于不同的地理或網(wǎng)絡(luò)位置”.2003年后,很多研究開(kāi)始關(guān)注廣域網(wǎng)分布式爬蟲(chóng),代表性的有,IPMicrat 第~個(gè)基于位置信息調(diào)度的分布式爬蟲(chóng),SE4SEE 實(shí)
,現(xiàn)了基于網(wǎng)格的分布式爬蟲(chóng),Apoideatl 實(shí)現(xiàn)了基于P2P 協(xié)議的完全分布式爬蟲(chóng).國(guó)內(nèi)學(xué)術(shù)界對(duì)分布式爬蟲(chóng)研究得較少,代表性的有北京大學(xué)的天網(wǎng)搜索引擎[14J的爬蟲(chóng)系統(tǒng),這是一個(gè)基于LAN 的爬蟲(chóng),已經(jīng)開(kāi)始商業(yè)化運(yùn)作;上海交通大學(xué)的Igloo 爬蟲(chóng)實(shí)現(xiàn)了基于網(wǎng)格服務(wù)的分布式爬蟲(chóng)(IglooG),萬(wàn)方網(wǎng)格的特性使其能夠支持廣域網(wǎng)部署.
1.2分布式爬蟲(chóng)的基本結(jié)構(gòu)和工作流程
由于爬蟲(chóng)要下載多個(gè)網(wǎng)頁(yè),而各個(gè)網(wǎng)頁(yè)的下載過(guò)程之間依賴(lài)性較小,因此可以被并行化.為了高效地下載網(wǎng)頁(yè),爬蟲(chóng)程序一般被設(shè)計(jì)為多線(xiàn)程和多進(jìn)程協(xié)同的方式,而分布式爬蟲(chóng)是將多個(gè)具有抓取網(wǎng)頁(yè)功能的Agent 分別部署于多個(gè)計(jì)算資源之上的爬蟲(chóng)程序.以下是分布式爬蟲(chóng)中每個(gè)Agent 的大致工作流程(其中,左側(cè)帶 號(hào)的兩行代碼可能需要多機(jī)協(xié)同完成) .為了突出Agent 對(duì)URL 的處理,算法描述省略了域名解析、對(duì)網(wǎng)頁(yè)和URL 的預(yù)處理以及解析網(wǎng)站的Robots .txt 文件的過(guò)程.
URL Seen:用于存儲(chǔ)已經(jīng)抓取過(guò)的URL .
URL 隊(duì)列:用于存儲(chǔ)待抓取的URL .
輸入:初始URL 列表.
Agent(初始URL 列表){
將初始URL 列表中的URL 放入U(xiǎn)RL 隊(duì)列;
while(ERE隊(duì)列不為空){
從URL 隊(duì)列中取出一個(gè)URL ;
,將URL 存入U(xiǎn)RLSeen ;
下載URL 指向的網(wǎng)頁(yè):
提取網(wǎng)頁(yè)中含有的URL ;
for(每一個(gè)新發(fā)現(xiàn)的URL){
if(URL應(yīng)由本Agent 負(fù)責(zé)){
if(URL不在URLSeen 中&&URL不在URL 隊(duì)列中)
將URL 放入U(xiǎn)RL 隊(duì)列: )else{
· 通過(guò)一定的Web 劃分方法選擇負(fù)責(zé)當(dāng)前URL 的Agent ;
· 將URL 發(fā)送至此Agent ; } ) ) }
1.3廣域網(wǎng)分布式Web 爬蟲(chóng)的優(yōu)勢(shì)和挑戰(zhàn)
廣域網(wǎng)分布式Web 爬蟲(chóng)與基于LAN 的分布式爬蟲(chóng)或稱(chēng)局域網(wǎng)爬蟲(chóng)相比具有諸多優(yōu)勢(shì):
(1)可擴(kuò)展性
可擴(kuò)展性是局域網(wǎng)爬蟲(chóng)的致命缺點(diǎn),也是提出廣域網(wǎng)分布式爬蟲(chóng)的主要原因.首先,廣域網(wǎng)系統(tǒng)能夠容納更多的計(jì)算資源,擁有更多的網(wǎng)絡(luò)接入點(diǎn).理論上,整體吞吐量可以無(wú)限擴(kuò)展;局域網(wǎng)爬蟲(chóng)因其計(jì)算資源數(shù)量受到LAN 的限制,很難擴(kuò)展到較大的規(guī)模,從而限制了系統(tǒng)整體吞吐量.其次,廣域網(wǎng)系統(tǒng)是由若干個(gè)相對(duì)較小的機(jī)群甚至單機(jī)節(jié)點(diǎn)組成,這使得資源添加和系統(tǒng)維護(hù)都變得相對(duì)簡(jiǎn)單.如果能
,夠進(jìn)一步利用分布在Intemet 上的個(gè)人計(jì)算資源,則維護(hù)開(kāi)銷(xiāo)將大為降低;相比之下,在LAN 中維護(hù)大規(guī)模機(jī)群的代價(jià)則非常昂貴,需要解決數(shù)據(jù)存儲(chǔ)、系統(tǒng)互連、機(jī)架結(jié)構(gòu)、電源、散熱等諸多問(wèn)題.
(2)多網(wǎng)絡(luò)接入點(diǎn)
爬蟲(chóng)在抓取網(wǎng)頁(yè)時(shí),HTTP 請(qǐng)求和下載網(wǎng)頁(yè)的過(guò)程需要占用系統(tǒng)網(wǎng)絡(luò)接入點(diǎn)的大部分帶寬.對(duì)基于LAN 的系統(tǒng),隨著機(jī)群規(guī)模的擴(kuò)大,接入帶寬將變?yōu)橄到y(tǒng)瓶頸.如果爬蟲(chóng)程序分布在不同的網(wǎng)絡(luò)位置,就可以使用多個(gè)網(wǎng)絡(luò)接入點(diǎn),理論上可以獲得相當(dāng)于這些接入點(diǎn)加和的總帶寬.并且隨著網(wǎng)絡(luò)接入點(diǎn)數(shù)量的增加,系統(tǒng)的總帶寬也會(huì)相應(yīng)增加,理論上帶寬可以無(wú)限擴(kuò)展.(31減少對(duì)Intemet 的網(wǎng)絡(luò)負(fù)載 爬蟲(chóng)程序在發(fā)出HTTP 請(qǐng)求并下載網(wǎng)頁(yè)時(shí),大量數(shù)據(jù)報(bào)文的傳播增加了Internet 的負(fù)載,在一定程度上影響了Intemet 的服務(wù)質(zhì)量.如果能夠?qū)崿F(xiàn)就近抓取,即布置在不同地域的分布式爬蟲(chóng)僅負(fù)責(zé)抓取距離自己相對(duì)較近的網(wǎng)站,則廣域網(wǎng)分布式爬蟲(chóng)可以將系統(tǒng)帶給Internet 的網(wǎng)絡(luò)負(fù)載控制在局部.而對(duì)于基于LAN 的爬蟲(chóng),由于其 網(wǎng)絡(luò)接入點(diǎn)單一,大量數(shù)據(jù)包要經(jīng)過(guò)較長(zhǎng)的路徑才能到達(dá)目的地,從而給路徑上的所有網(wǎng)絡(luò)資源(如路由器、交換機(jī)、網(wǎng)關(guān)等) 帶來(lái)壓力. 廣域網(wǎng)尤其是Intemet 環(huán)境比局域網(wǎng)要復(fù)雜得多,系統(tǒng)一旦架設(shè)到廣域網(wǎng)環(huán)境就會(huì)受到諸多限制.如何有效利用廣域網(wǎng)資源同時(shí)又能消除廣域網(wǎng)環(huán)境的不利影響,是廣域網(wǎng)分布式爬蟲(chóng)研究所面臨的重大挑戰(zhàn).本文針對(duì)當(dāng)前廣域網(wǎng)分布式Web 爬蟲(chóng)的研究和實(shí)踐,總結(jié)出這一領(lǐng)域的3個(gè)關(guān)鍵問(wèn)題:
,(1)Web劃分:如何將抓取Web 這個(gè)巨大的任務(wù)切分成多份,交予系統(tǒng)中的多個(gè)Agent 執(zhí)行.
(2)Agent協(xié)同:多個(gè)Agent 之間應(yīng)該如何進(jìn)行協(xié)同工作,如何進(jìn)行互聯(lián)與通信.
(3)Agent部署:如何利用現(xiàn)有硬件和網(wǎng)絡(luò)資源構(gòu)建廣域網(wǎng)分布式爬蟲(chóng)系統(tǒng).
這3個(gè)關(guān)鍵問(wèn)題在廣域網(wǎng)分布式Web 爬蟲(chóng)研究中的層次結(jié)構(gòu)如圖l 所示:最上層的Web 劃分強(qiáng)調(diào)的是邏輯問(wèn)題,相當(dāng)于決策層;最下層的Agent 部署強(qiáng)調(diào)的是物理問(wèn)題,它作為系統(tǒng)的基礎(chǔ)是工程性很強(qiáng)的一層;Agent 協(xié)同則既涉及物理又涉及邏輯,包含了程序?qū)崿F(xiàn)和網(wǎng)絡(luò)環(huán)境分析等多方面的問(wèn)題.
2 、Web 劃分
系統(tǒng)中各個(gè)Agent 在抓取過(guò)程中會(huì)不斷地發(fā)現(xiàn)新的URL ,而這些URL 中存在大量的重復(fù).如果將這些新URL 直接交由發(fā)現(xiàn)它的Agent 抓取,那么將會(huì)引起多個(gè)Agent 下載相同的網(wǎng)頁(yè),從而引起重復(fù)工作,降低整體的網(wǎng)頁(yè)抓取效率.因此,需要一種為各個(gè)Agent 分配URL 的策略,由此提出Web 劃分的概念.
2.1 Web劃分的定義
定義l(Web劃分集合和Web 劃分集合的分類(lèi)) .設(shè)分布式Web 爬蟲(chóng)由Ⅳ個(gè)Agent 組成,Web 上所有網(wǎng)頁(yè)的集合
2.2 Web劃分單元
Web劃分單元的選取是實(shí)現(xiàn)W 曲劃分時(shí)必須考慮的問(wèn)題.Web
,劃分單元是Agent 在工作過(guò)程中所負(fù)責(zé)抓取的最小集合,凡是包含于劃分單元的網(wǎng)頁(yè),全部由一個(gè)Agent 負(fù)責(zé)抓?。糜趙 曲劃分單元的某些屬性的集合稱(chēng)為劃分屬性,用于指導(dǎo)對(duì)Web 劃分單元的分類(lèi).這些屬性可以來(lái)自URL 字符串本身。也可以來(lái)自與URL 相關(guān)的某些事物,如網(wǎng)站IP 地址、網(wǎng)頁(yè)內(nèi)容、第三方信息等.根據(jù)廣域網(wǎng)環(huán)境下實(shí)驗(yàn)的經(jīng)驗(yàn),廣域網(wǎng)分布式系統(tǒng)在進(jìn)行任務(wù)劃分時(shí)粒度必須適當(dāng)?shù)卮?,以保證各個(gè)節(jié)點(diǎn)具有較高的計(jì)算通信比,盡量降低信息交換引發(fā)的時(shí)間開(kāi)銷(xiāo).Web 劃分單元對(duì)應(yīng)任務(wù)粒度的概念,因此這樣的結(jié)論同樣適用于廣域網(wǎng)分布式爬蟲(chóng).下面討論兩個(gè)典型的Web 劃分單元(以下簡(jiǎn)稱(chēng)為單元) ,并對(duì)其劃分屬性及優(yōu)缺點(diǎn)進(jìn)行論述.
(1)鏈接(URL)
URL是Web 爬蟲(chóng)研究中最小的Web 劃分單元,優(yōu)點(diǎn)是簡(jiǎn)單、直觀(guān),缺點(diǎn)是粒度太細(xì).由于Web 上存在的鏈
接比網(wǎng)站總數(shù)要多得多,對(duì)URL 進(jìn)行分類(lèi)的工作量是十分巨大的.與主機(jī)名相比,URL 所攜帶的劃分屬性比較
少。僅能顯示文件類(lèi)型等信息.
(2)主機(jī)(host)
以URL 中的主機(jī)名(即hostname ,比如URL :http ://www .sina .corn /index .html 的主機(jī)名為www .sina .corn) 為 Web 劃分單元,是大部分分布式Web 爬蟲(chóng)的首選.相對(duì)于以URL 為單元而言,本方法產(chǎn)生的跨分區(qū)鏈接較少.因?yàn)樘幱谕粋€(gè)主機(jī)的URL 必然會(huì)被分配到同一個(gè)劃分集合中;而在以URL 為單元的情況下,這
,些URL 可能會(huì)被分配到很多不同的Web 劃分集合中,這樣,主機(jī)內(nèi)部的鏈接也變成了跨分區(qū)鏈接.對(duì)主機(jī)名的一種延伸是域名,由于一個(gè)域名下可能擁有若干主機(jī),因此域名是一種粒度更大的Web 劃分單元.主機(jī)所具有的劃分屬性主要有IP 地址、網(wǎng)站類(lèi)型等。除了以上兩種單元以外,由于RIRs(regional intemet registries)的存在,通過(guò)主機(jī)的IP 地址等信息還可以得到網(wǎng)站所在國(guó)家、地區(qū)及運(yùn)營(yíng)商等信息,給Web 劃分單元提供了更多的可選方案。
2.3 Web劃分策略
根據(jù)定義2,在系統(tǒng)中含有Ⅳ個(gè)Agent 的情況下,Web 劃分的前提是找出Web 全集的一個(gè)大小為Ⅳ的子集(Web劃分集合) 的集合.采用何種方法將所有Web 劃分單元分類(lèi)成Ⅳ個(gè)Web 劃分集合,并實(shí)現(xiàn)其與Ⅳ個(gè)Agent 的一一映射。構(gòu)成了分布式Web 爬蟲(chóng)的Web 劃分策略.下面介紹目前已經(jīng)提出的幾種Web 劃分策略,對(duì)其原理和優(yōu)、缺點(diǎn)進(jìn)行詳細(xì)論述.
(1)基于隨機(jī)哈希
基于隨機(jī)哈希的方法是采用得最多的Web 劃分方法.最早的分布式爬蟲(chóng)系統(tǒng)大多是建立在對(duì)在對(duì)URL 或主機(jī)名哈希的基礎(chǔ)之上的.首先,這種方法非常容易計(jì)算,用于調(diào)度的系統(tǒng)開(kāi)銷(xiāo)較小;其次,由于哈希函數(shù)的隨機(jī)性,保證了各個(gè)Agent 間負(fù)載均衡;另外,這種將字符串映射為隨機(jī)數(shù)的方法非常易于與采用DHT 的P2P 系統(tǒng)集成,如UbiCrawler(并沒(méi)有聲稱(chēng)自己是P2P 系統(tǒng),但是最早使用了類(lèi)DHT 方法:consistent hashing,Apoidea 等。
,基于哈希的方法遇到的最大問(wèn)題是,結(jié)構(gòu)簡(jiǎn)單的哈希值無(wú)法體現(xiàn)出主機(jī)所具有的類(lèi)型、地理位置、網(wǎng)絡(luò)距離等信息,也就無(wú)法利用這些屬性提高分類(lèi)質(zhì)量。
(2)基于域名后綴及文件類(lèi)型
有的爬蟲(chóng)根據(jù)主機(jī)或網(wǎng)站的域名后綴不同,將Web 劃分單元分配到不同的Web 劃分集合.比如,根據(jù)網(wǎng)站域名中諸如.net ,.org ,.corn ,.edu 這些表示組織性質(zhì)的后綴進(jìn)行分類(lèi);還可以根據(jù)URL 字符串中的文件類(lèi)型如.html ,.rap3等進(jìn)行分類(lèi).以上兩種分類(lèi)方法更加注重對(duì)網(wǎng)頁(yè)內(nèi)容的分類(lèi).SE4SEE 提出根據(jù)表示語(yǔ)言類(lèi)型或國(guó)家、區(qū)域的域名后綴,如.cn ,jp ,.fr 等進(jìn)行分類(lèi),這樣不僅實(shí)現(xiàn)了按照網(wǎng)頁(yè)內(nèi)容分類(lèi),而且由于每種語(yǔ)言群體的地理分布基本都不相同,也部分地實(shí)現(xiàn)了按地理位置劃分,為爬蟲(chóng)就近抓取創(chuàng)造了一定的條件.這種方法的優(yōu)點(diǎn)是,Web 數(shù)據(jù)在抓取時(shí)就已經(jīng)進(jìn)行了初步的分類(lèi),為以后的數(shù)據(jù)分析工作奠定了比較好的基礎(chǔ).但它仍然存在諸多缺陷:首先,并非每個(gè)URL 或域名都遵守傳統(tǒng)的后綴命名規(guī)范,如有的學(xué)校的域名就是.corn 而不是大家普遍認(rèn)同的.edu ;樣,也有很多.cn(中文) 后綴的網(wǎng)站其實(shí)含有大量英語(yǔ)內(nèi)容;其次,由于各種類(lèi)型的網(wǎng)站的數(shù)量或文件的數(shù)量分布不均,將造成系統(tǒng)中各個(gè)Agent 的負(fù)載不均,比如,按照語(yǔ)言類(lèi)型分類(lèi),小語(yǔ)種網(wǎng)站的數(shù)量非常少,而擁有諸如.en ,.de 這類(lèi)域名后綴的網(wǎng)站數(shù)量則非常大.跨越較大的地理范圍和網(wǎng)絡(luò)范圍是廣域網(wǎng)分布式系統(tǒng)天生的優(yōu)勢(shì),可以利用這個(gè)優(yōu)勢(shì)實(shí)現(xiàn)Agent 對(duì)網(wǎng)站的就近抓取。即對(duì)每個(gè)網(wǎng)站由距離它