卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

國外六個(gè)著名搜索引擎的特征和評(píng)析

  《現(xiàn)代圖書情報(bào)技術(shù)》 2001年 第1期信息檢索技術(shù)總第84期國外六個(gè)著名搜索引擎的特征和評(píng)析徐建華 伍 憲 胡燕菘(深圳大學(xué)圖書館 深圳518060)【摘要】 對(duì)國外六個(gè)著名的搜索引擎Altav

  《現(xiàn)代圖書情報(bào)技術(shù)》 2001年 第1期

信息檢索技術(shù)

總第84期

國外六個(gè)著名搜索引擎的特征和評(píng)析

徐建華 伍 憲 胡燕菘

(深圳大學(xué)圖書館 深圳518060)

【摘要】 對(duì)國外六個(gè)著名的搜索引擎Altavista 、E xcite 、Go 、Hotbot 、Lycos 、Yahoo 的數(shù)據(jù)庫規(guī)模和范圍、信息采集方

式、標(biāo)引內(nèi)容、檢索功能、結(jié)果顯示格式、結(jié)果排序規(guī)則與數(shù)據(jù)庫更新頻率等七個(gè)方面進(jìn)行了比較和評(píng)析。

【關(guān)鍵詞】 因特網(wǎng) 搜索引擎 網(wǎng)絡(luò)檢索工具  【分類號(hào)】 G 354. 2

An Examination of Six Popular Web

Search Engines on Abroad

Xu Jianhua  Wu Xian  Hu Yansong (Shenz hen Univ ersity L ibr ary , S henz hen )

【Abstract 】 T his ar ticle evaluates six po pular W eb Sear ching Engines:Altav ista, Ex cit e, Go , Hot bo t, L y co s, and Y ahoo. T hese databases ar e compar ed and ana ly sed in seven a spects:sco pe and size, co llecting met ho ds, index ing and abstr act ing, search features, displaying , sor ting , and updating frequency.

【 Internet  Sear ch eng ines  N etwo r k r etr iev al to ols Keywords 】

  Inter net 搜索引擎就象信息海洋中的導(dǎo)航員, 能幫助人們快速找到所需要的信息。然而隨著各種信息的巨量增長, 人們使用搜索引擎也遇到了困難, 相同的檢索詞在不同的搜索引擎中得出的結(jié)果在質(zhì)量和數(shù)量上都有所不同, 產(chǎn)生這種現(xiàn)象是因?yàn)椴煌乃阉饕娌杉畔⒌姆椒?、?biāo)引的內(nèi)容以及檢索功能是有所區(qū)別的, 這樣就導(dǎo)致利用相同的檢索詞在不同的搜索引擎中獲得不同的結(jié)果。本文將對(duì)Int ernet 六個(gè)著名的搜索引擎的特征進(jìn)行比較和評(píng)析, 通過比較不同搜索引擎的工作方式, 有助于用戶正確地掌握不同搜索引擎的使用規(guī)則, 輕松方便地上網(wǎng)查找信息; 另一方面, 還可以幫助網(wǎng)頁設(shè)計(jì)者根據(jù)搜索引擎的要求去設(shè)計(jì)和提交網(wǎng)頁, 確保證自己的網(wǎng)站能被搜索引擎收錄, 并且在進(jìn)行檢索時(shí)能得到較高的排名。

件標(biāo)引網(wǎng)頁的內(nèi)容是不同的, 有些對(duì)網(wǎng)頁全文進(jìn)行標(biāo)引, 有些只標(biāo)引網(wǎng)頁的地址、篇名、題名、特定的段落和重要的詞。不同的索引軟件建立數(shù)據(jù)庫的規(guī)模不一樣, 數(shù)據(jù)庫規(guī)模的大小決定查詢到的信息是否全面和查全率的高低。數(shù)據(jù)庫越大, 檢索到的結(jié)果越多。查詢軟件負(fù)責(zé)在數(shù)據(jù)庫中進(jìn)行檢索, 并將查詢到的結(jié)果返回給用戶。查詢軟件決定搜索引擎的檢索功能和返回結(jié)果的相關(guān)性。在檢索過程中, 該軟件還會(huì)利用特殊的計(jì)算機(jī)算法對(duì)文獻(xiàn)與檢索詞的相關(guān)性進(jìn)行計(jì)算和評(píng)估。不同的搜索引擎使用各自的標(biāo)準(zhǔn)對(duì)相關(guān)度作出判斷, 這些標(biāo)準(zhǔn)包括:標(biāo)題、網(wǎng)址、題名、M eta 標(biāo)記等, 根據(jù)檢索詞出現(xiàn)在文件中的位置、頻率、多個(gè)詞檢索時(shí)所出現(xiàn)的檢索詞數(shù)量的多少等。

1 搜索引擎是如何工作的

機(jī)器人搜索引擎一般由搜索軟件、索引軟件和檢索軟件三部分組成。搜索軟件, 通常稱為機(jī)器人(Robo t ) 、爬蟲(Cr aw ler s ) 、蜘蛛(Spider s ) , 它們是可以運(yùn)行在W WW 的空間、能夠沿著網(wǎng)站的鏈接從一個(gè)頁面跨越到另一個(gè)頁面, 自動(dòng)追尋和發(fā)掘網(wǎng)上的各種文獻(xiàn)信息資源, 采集新出現(xiàn)的信息, 確認(rèn)網(wǎng)頁之間的鏈接是否有效, 剔除死鏈的一種軟件。一般來說搜索軟件通常最先訪問知名度高的服務(wù)器。所謂知名度高, 是指服務(wù)器和網(wǎng)頁的" 被鏈接率”高。索引軟件將采集的網(wǎng)頁信息進(jìn)行自動(dòng)標(biāo)引, 建立索引數(shù)據(jù)庫。不同的索引軟

2 六個(gè)著名搜索引擎的特征和評(píng)析

下面將從數(shù)據(jù)庫規(guī)模、信息采集方式、標(biāo)引內(nèi)容、檢索功能、結(jié)果顯示格式、結(jié)果排序規(guī)則、數(shù)據(jù)庫更新頻率等七個(gè)方面對(duì)六個(gè)著名的搜索引擎進(jìn)行比較和評(píng)析。需要指出的是, 隨著時(shí)間的推移, 搜索引擎的某些特征可能會(huì)有所變化。2. 1 A lta Vist a 網(wǎng)址:http://ww w. altav ista. co m/

A ltaV ista 是資格最老的搜索引擎之一, 1995年由著名計(jì)算機(jī)Dig ital 公司正式推出, 1998年被Co mpaq 收購, 為了將其發(fā)展成為提供Inter net 信息和電子商務(wù)服務(wù)的主要網(wǎng)站, 今年1月又從Co mpaq 中獨(dú)立出來, 成為自主運(yùn)營的子公司。新近開發(fā)的3. 0新版為電子商務(wù)站點(diǎn)、信息門戶和B2B 市場(chǎng)等增添了很多額外的搜索功能。這些功能包括對(duì)整個(gè)網(wǎng)絡(luò)、數(shù)據(jù)庫以及200多個(gè)不同的文件類型進(jìn)行搜索。是

  收稿日期:2000-07-16

,

  《現(xiàn)代圖書情報(bào)技術(shù)》 2001年 第1期

信息檢索技術(shù)

總第84期

目前最受歡迎的因特網(wǎng)搜索工具之一, 它以其搜索功能強(qiáng)大, 響應(yīng)速度快和巨大的信息量著稱。

數(shù)據(jù)庫規(guī)模和范圍:數(shù)據(jù)庫中已包括2. 5億個(gè)網(wǎng)頁, 在搜索引擎庫容量排行榜上列居第三, 僅次于Inktomi 和FAS T 。在1999年以前它一直以最大的數(shù)據(jù)庫稱雄于網(wǎng)絡(luò)之中。AltaVista 提供關(guān)鍵詞和分類目錄檢索。檢索內(nèi)包括產(chǎn)品、6-14天的新聞、討論組、W eb 頁面、圖像、視頻等信息。M P 3/音頻、

信息采集的方法:A ltaVis ta 采用用戶提交和利用網(wǎng)絡(luò)機(jī)器人自動(dòng)搜索的方式增加和更新數(shù)據(jù)庫。它的超級(jí)蜘蛛“Scooter ”每天會(huì)不斷地在網(wǎng)上搜尋, 及時(shí)發(fā)現(xiàn)網(wǎng)頁的變化, 并自動(dòng)地將更新的信息在索引中反映出來, 每天至少更新300萬條信息。機(jī)器人可以識(shí)別假冒偽劣的網(wǎng)頁, 并對(duì)其進(jìn)行懲罰。所謂的假冒偽劣網(wǎng)頁是那些重復(fù)使用關(guān)鍵詞或者將一些與網(wǎng)頁主題不相關(guān)的熱門詞匯做成與背景相同的顏色來欺騙搜索引擎以獲得較高相關(guān)性等級(jí)的網(wǎng)頁。

標(biāo)引內(nèi)容:對(duì)網(wǎng)頁的所有文本(包括標(biāo)題、文摘、關(guān)鍵詞、全文) 、圖像、鏈接、錨點(diǎn)、域名、主機(jī)名、M ate 標(biāo)記、URL 和Applet 、Acc-tivex 等進(jìn)行標(biāo)引。摘要通常是M ate 描述標(biāo)記的內(nèi)容, 如果無此項(xiàng)則利用文獻(xiàn)中的前兩行編制一個(gè)簡短的文摘。

檢索功能:AltaVis ta 支持簡單和高級(jí)查詢??蛇M(jìn)行單詞和詞組檢索(用雙引號(hào)) , 詞間缺省關(guān)系為or, 可用自然語言進(jìn)行檢索。如果要求特定單詞包含在索引的文檔中, 可以在它前面加一個(gè) 號(hào), 如果要排除含有特定單詞的文檔, 可以在它前面加一個(gè)-號(hào)。利用通配符*進(jìn)行截詞。在高級(jí)查詢中, AltaVis ta 支持全功能的布爾邏輯式檢索、近似搜索, 能將文本譯為多種語言, 在主頁列出了熱門站點(diǎn), 它還提供日期限定, 語言限定, 字段限定等擴(kuò)展功能, 可進(jìn)一步提高用戶的查準(zhǔn)率。字段限制包括篇名、域名、主機(jī)名、圖像文件、鏈接點(diǎn)、URL 等。在字段檢索中可以采用布爾邏輯式表示是AltaVista 的獨(dú)特之處。此外還可利用Ask Jeeves 自然語言技術(shù)和分類目錄進(jìn)行檢索。

結(jié)果顯示格式:包括篇名、文件的前兩行、URL 文件大小及文件索引的日期。另外還提供對(duì)網(wǎng)頁進(jìn)行翻譯和利用“查Related pages ”找相關(guān)的網(wǎng)頁信息的功能。

結(jié)果排序規(guī)則:AltaV ista 根據(jù)每個(gè)文獻(xiàn)包含檢索詞的數(shù)量, 關(guān)鍵詞出現(xiàn)的位置和關(guān)鍵詞彼此接近的程度等信息給出一個(gè)等級(jí)。如在結(jié)果的前幾個(gè)單詞中含有要查找的單詞(特別是網(wǎng)頁的標(biāo)題) , 或在結(jié)果中要查找的單詞很靠近, 或該結(jié)果比其它的結(jié)果含有更多的要查找的詞則會(huì)得到較高的排序。

數(shù)據(jù)庫更新頻率:索引內(nèi)容大約每4~6周全部更新一次。評(píng)價(jià):數(shù)據(jù)庫容量大, 用戶介面友好, 在線幫助文件完整, 檢索速度快。是目前檢索軟件中功能最全面、查全率最高的優(yōu)秀搜索引擎之一。由于進(jìn)行全文索引, 對(duì)內(nèi)容不進(jìn)行選擇, 因而“信噪比”較大, 但對(duì)于進(jìn)行精細(xì)檢索和查找內(nèi)容較專的特定詞以及比較偏僻的信息會(huì)得到比較滿意的結(jié)果。

但并沒有包括這些主題詞的文件。它是通過統(tǒng)計(jì)的方法, 發(fā)現(xiàn)詞頻相近的目錄, 從而將其作為相關(guān)文件進(jìn)行檢索。

數(shù)據(jù)庫規(guī)模和范圍:查詢內(nèi)容包括WW W 、Usenet 、音頻、視頻、新聞、地圖、黃頁、軟件、股票、電子郵件地址、飛機(jī)航班等信息。含有5000萬個(gè)網(wǎng)頁, 由30名專業(yè)記者組成的隊(duì)伍用一年半的時(shí)間對(duì)6萬個(gè)W eb 站點(diǎn)進(jìn)行評(píng)論。

信息采集方式:人工提交和通過檢查流行的網(wǎng)站來采集信息。E xcite 的機(jī)器人每周運(yùn)行一次, 檢索自己數(shù)據(jù)庫內(nèi)的各站點(diǎn), 并且查看“What's New ? ”網(wǎng)頁。對(duì)于用戶提交的網(wǎng)頁, 機(jī)器人第一次訪問時(shí)就會(huì)將此內(nèi)容加到數(shù)據(jù)庫中。

標(biāo)引內(nèi)容:Excite 標(biāo)引網(wǎng)頁題名、URL 和鏈接, 注重標(biāo)題文字、網(wǎng)頁文字和可見的或含鏈接的詞。不標(biāo)引注釋標(biāo)記、Alt. 標(biāo)記、Java 或其它在瀏覽器中不可見但出現(xiàn)在原代碼中的信息。不查看meta 標(biāo)記項(xiàng), 但標(biāo)記M eta 描述項(xiàng)。Excite 用“智能概念抽取”軟件分析站點(diǎn)并根據(jù)一定的規(guī)則確定關(guān)鍵詞索引, 再根據(jù)關(guān)鍵詞為指南來查詢最合適的句子, 然后將這些句子連在一起組成摘要。這種由檢索程序編制的智能文摘使其摘要具有較高的可讀性。Excite 注重應(yīng)用關(guān)鍵詞或關(guān)鍵詞語, 如某個(gè)關(guān)鍵詞能深入整個(gè)網(wǎng)頁比多個(gè)主題或關(guān)鍵詞堆積在一塊效果要好。對(duì)假冒偽劣網(wǎng)頁進(jìn)行懲罰。

檢索功能:有基本檢索和高級(jí)檢索。其中基本檢索支持關(guān)鍵詞、詞組和自然語言檢索。自然語言檢索越詳細(xì)越好。Ex cite 中要求的單詞和排除的單詞的使用方法同AltaVista 一樣, 使用 號(hào)和-號(hào)。

布爾搜索:Ex cite 支持AND 、它也支持OR 、AND NOT 操作符。用括號(hào)來構(gòu)成檢索式。高級(jí)檢索利用表格可選擇檢索或排除某個(gè)單詞和詞組, 還可對(duì)國家和語言、域名等進(jìn)行限制檢索。

結(jié)果顯示格式:首先顯示W(wǎng)eb 目錄、然后最好的10個(gè)Web 結(jié)果、下面是最相關(guān)的5條Web 新聞。W eb 結(jié)果包括相關(guān)得分、題名、摘要、URL, 也可選擇只顯示題名。可用Web 結(jié)果中的“S earch for m ore documents like this one ”進(jìn)行相關(guān)性檢索。新聞可顯示標(biāo)題、出處、相關(guān)得分、日期和進(jìn)行相關(guān)新聞的檢索, 選擇顯示摘要按日期和出版物進(jìn)行排序。每屏顯示的結(jié)果可選擇10、20、30、40、50條。

數(shù)據(jù)庫更新頻率:1-2周。

評(píng)價(jià):系統(tǒng)反應(yīng)速度快。便于簡短查詢。查詢相關(guān)網(wǎng)頁服務(wù)的檢索效果比其它檢索工具強(qiáng)。智能文摘技術(shù)使其摘要具有較高的可讀性??梢砸远喾N方式瀏覽結(jié)果。相關(guān)性排序質(zhì)量一般。搜索出來的結(jié)果不能指明其格式或以兆字節(jié)數(shù)來告知文件的大小。

2. 3 Go (Info seek) 網(wǎng)址:htt p://ww w. g o. co m/

G o 創(chuàng)建于1999年1月, 是由Infoseek 和Disney 共同開發(fā)的門戶和搜索引擎網(wǎng)站, 它的前身是Infoseek (1995創(chuàng)建) 。它是第一個(gè)提供有償服務(wù)的網(wǎng)絡(luò)信息檢索系統(tǒng)。1999年4月新增翻譯服務(wù), 可將英語翻譯成法語、德語、意大利語、西班牙語和葡萄牙語。提供巴西、荷蘭、丹麥、德國、法國、瑞典、意大利、日本、英國等10個(gè)語言的版本, 使其具有全球效應(yīng)。

數(shù)據(jù)庫規(guī)模和范圍:數(shù)據(jù)庫內(nèi)容包括5000萬個(gè)網(wǎng)頁。分類目錄是一個(gè)由人工精選的高質(zhì)量的Web 網(wǎng)站目錄, 可檢索W WW 信息、圖像、音頻、視頻、新聞和公司信息以及新聞組。此外還提供許多附加的參考數(shù)據(jù)庫。如股票報(bào)價(jià)、公司資料、類似字典的E -mail 地址、各種參考資料以及郵政編碼指南。利用Expres s Sear ch(h ttp://ex-press. go. com. ) 多元搜索引擎可同時(shí)對(duì)10個(gè)搜索引擎進(jìn)行查詢。

2. 2 Ex cite 網(wǎng)址:http://w w w. excite. com

Ex cite 于1995年底創(chuàng)建, 它的最大特色恐怕就是它的概念搜索了。Ex cite 首先將你的檢索詞按字義進(jìn)行自動(dòng)擴(kuò)展或加以限定, 然后根據(jù)“智能概念抽提”技術(shù)查找與提問的概念和含義相關(guān)的文獻(xiàn), 而不只是簡單的關(guān)鍵詞匹配。概念檢索是指在檢索文件的過程中, 不僅能夠檢索到含有用戶提出的關(guān)鍵詞的文件, 還能檢索到與用戶的檢索主題密切相關(guān)、

,

  《現(xiàn)代圖書情報(bào)技術(shù)》 2001年 第1期

信息檢索技術(shù)

和網(wǎng)頁中都使用M ate 標(biāo)記。

總第84期

信息采集方式:Go 對(duì)信息源的采集利用自動(dòng)跟蹤軟件漫游獲取與用戶登錄相結(jié)合的方式。通常要花十天左右的時(shí)間來處理一個(gè)網(wǎng)址加入其索引庫, 它對(duì)網(wǎng)址的自動(dòng)登錄有嚴(yán)格的限制, 也保留刪除一個(gè)網(wǎng)址的權(quán)力。它允許用戶以200個(gè)字符來描述一個(gè)網(wǎng)頁的內(nèi)容, 這段文字將出現(xiàn)的檢索結(jié)果的摘要中。不支持Frames 和S temming 。

標(biāo)引內(nèi)容:Go 進(jìn)行全文索引, 但不標(biāo)引禁用詞。利用超感知覺的算法和人工編輯的目錄為用戶提供優(yōu)質(zhì)服務(wù)。主要根據(jù)M eta 標(biāo)記來決定網(wǎng)頁被索引的數(shù)量。如果無M eta 標(biāo)記則利用最前面的250個(gè)字母, 因此最好寫入一定數(shù)量的關(guān)鍵詞在M eta 標(biāo)記中, 這樣被索引的機(jī)會(huì)大。前250個(gè)字母最好包括主題詞和關(guān)鍵詞。

檢索功能:可通過高質(zhì)量的分類目錄進(jìn)行瀏覽。查詢功能有簡單和高級(jí)的搜索功能, 詞語缺省檢索為or, 無截詞功能, 但可自動(dòng)檢索單復(fù)數(shù)形式。它支持支持布爾邏輯and 、or 、not 檢索、雙引號(hào)短語檢索, 大小寫有別, 利用管道“ ”進(jìn)行縮檢。高級(jí)檢索中可選擇檢索題名、URL 、網(wǎng)站、超級(jí)鏈接、域名、人名等進(jìn)行限制檢索。

結(jié)果顯示格式:首先出現(xiàn)分類目錄中檢索到的高質(zhì)量的網(wǎng)站, 然后是網(wǎng)頁信息。每一條結(jié)果都顯示文獻(xiàn)的題名、文摘、相關(guān)性得分、文件創(chuàng)建或更新的日期、文件大小、URL 。具備進(jìn)行相關(guān)網(wǎng)頁的檢索、翻譯和聚類功能。聚類功能可將同一網(wǎng)站下的網(wǎng)頁聚在一塊, 利用“M ore results from . . . ”可顯示同一網(wǎng)站的更多結(jié)果。如果取消聚類功能則對(duì)網(wǎng)頁的相關(guān)性重新排序。還可選擇不顯示文摘, 按時(shí)間先后順序排列結(jié)果。

結(jié)果排序規(guī)則:按網(wǎng)站的相對(duì)得分進(jìn)行排序, 得分的依據(jù)是根據(jù)檢索詞在網(wǎng)頁中出現(xiàn)的位置(篇名或文章的開始部分) 、詞出現(xiàn)的頻度、權(quán)重和鏈接分析等因素。數(shù)據(jù)庫中不常見檢索詞的加權(quán)較高, 常用詞加權(quán)較低。

數(shù)據(jù)庫更新頻率:1-60天。

評(píng)價(jià):搜索精度高, 查到的信息一般都比較準(zhǔn)確。新站點(diǎn)加入很及時(shí), 數(shù)據(jù)庫中剔出了陳舊的列表和重復(fù)的主頁。由于軟件排除數(shù)據(jù)庫中重復(fù)的URL , 每一U RL 只標(biāo)引一次, 因此檢索到的重復(fù)文件相對(duì)比較少, 系統(tǒng)反應(yīng)速度快, 相關(guān)性排序較好??梢詸z索人名、地名和其它專有名詞。高級(jí)檢索功能較少。數(shù)據(jù)庫較小。

檢索功能:提供簡單和高級(jí)檢索。簡單檢索利用下拉菜單可選擇利用單詞、短語、題名、人物、URL 布爾邏輯進(jìn)行檢索, 可對(duì)語言、日期進(jìn)行限制。高級(jí)檢索除包含簡單檢索的功能外, 可選擇包含或排除某個(gè)檢索詞, 是檢索所有的網(wǎng)頁還是首頁, 還可對(duì)媒介類型、地區(qū)和域名進(jìn)行限制??稍诘玫降慕Y(jié)果中作進(jìn)一步的檢索。

結(jié)果顯示格式:可選擇一次顯示10、25、50或者100條結(jié)果。結(jié)果由三部分組成。先列出10個(gè)最好的網(wǎng)站, 這10個(gè)網(wǎng)站是根據(jù)受用戶的歡迎程度以及相關(guān)性來決定的(太專一或偏的檢索可能沒有此項(xiàng)結(jié)果) , 然后是顯示與檢索相匹配的分類目錄列表, 最后是由Ink-tomi 產(chǎn)生的結(jié)果列表。在結(jié)果顯示時(shí), HotBot 會(huì)列出標(biāo)題、一個(gè)簡短的由軟件產(chǎn)生的摘要、相應(yīng)的得分、文件大小、日期和網(wǎng)址。結(jié)果中的日期表示此信息加入數(shù)據(jù)庫的時(shí)間或更新的時(shí)間。一般同一個(gè)網(wǎng)站只列出主要的頁面或首頁, 利用“可查看同一網(wǎng)站Th is site on ly ”的其它網(wǎng)頁。

結(jié)果排序規(guī)則:根據(jù)題名, M eta 標(biāo)記中的關(guān)鍵詞、詞(排除太一般的詞) 在文獻(xiàn)中出現(xiàn)的位置和頻度以及文獻(xiàn)的長度決定排列順序。隨著時(shí)間的推移, 還會(huì)不斷改進(jìn)算法規(guī)則。對(duì)欺騙性的網(wǎng)頁進(jìn)行懲罰, 降低排名。

數(shù)據(jù)庫更新頻率:每3-4周更新一次。

評(píng)價(jià):HotBot 最大的特點(diǎn)在于它的界面組織和豐富的檢索功能。HotBot 在頁面上提供了直觀的圖形化檢索菜單功能, 用戶可以通過簡單的下拉菜單創(chuàng)建復(fù)雜的布爾查詢, 或者按日期、地理區(qū)域和媒體類型進(jìn)行限制性搜索??蓪?duì)搜索結(jié)果進(jìn)行再搜索。由于使用了并行處理辦法, 數(shù)據(jù)庫也分配在幾個(gè)工作站上, 因此速度快。在搜索引擎領(lǐng)域, HotBot 仍然是令眾人矚目的領(lǐng)頭羊。它的不足之處在布爾操作符上有些限制。

2. 5 L ycos 網(wǎng)址:http://w ww. ly co s. com

L y cos 是最早出現(xiàn)的搜索引擎之一, 創(chuàng)建于1995年, 由美國卡內(nèi)基?梅隆大學(xué)的機(jī)器翻譯中心開發(fā)研制。L y co s 來源于一種陸上蜘蛛的拉丁文名稱。這種蜘蛛不靠結(jié)網(wǎng)而靠抓取獵物生存, 而且活動(dòng)速度很快, 習(xí)慣于夜間活動(dòng)。

數(shù)據(jù)庫規(guī)模和范圍:利用多個(gè)數(shù)據(jù)庫提供關(guān)鍵詞和分類主題查詢以及其它服務(wù)。高級(jí)檢索利用Fast 的數(shù)據(jù)庫(包含3. 4億個(gè)網(wǎng)頁) 。Lycos 自身的目錄指南包含5000萬網(wǎng)頁。最好的十個(gè)網(wǎng)站來自Direct Hit 。檢索對(duì)象包括WW W 、FTP 、Gopher, 以及圖像、音頻、視頻文件。每項(xiàng)服務(wù)包括特別的增值服務(wù), 如熱點(diǎn)選評(píng)、當(dāng)前最新信息和報(bào)道等。

信息采集方式:用戶提交和利用機(jī)器人自動(dòng)搜索。用戶注冊(cè)提交URL 和電子郵件地址, 然后Lycos 的蜘蛛會(huì)自動(dòng)地根據(jù)訪問到的信息創(chuàng)建文摘, 確立關(guān)鍵詞和說明。幾周后就可檢索到提交網(wǎng)頁的信息??赏瑫r(shí)提交多個(gè)不同內(nèi)容的URL, 如果是相同的內(nèi)容將會(huì)認(rèn)為是“spam ”而被剔除。不支持M eta 標(biāo)記和Frame 。機(jī)器人每4周要訪問所有的網(wǎng)站一次。

標(biāo)引內(nèi)容:非全文數(shù)據(jù)庫, 標(biāo)引U RL 、篇名、題名、文件的前20行文字(或文件內(nèi)容的20) 和文獻(xiàn)中最重要的100個(gè)詞以及超文本的鏈接詞。

檢索功能:Lycos 提供簡單和高能檢索。利用 、-表示要求或排除的單詞, 缺省檢索是And 。

在高級(jí)檢索中, 不使用布爾邏輯操作符, 但可用下拉菜單選擇檢索“所有的詞”、“任何詞”或“精確地匹配”。字段限制檢索:題名,

2. 4 Ho tBo t 網(wǎng)址:ht tp://ww w. ho tbot. com

HotBot 是Wired Digital Inc. 1996年5月推出的搜索引擎。1998年10月L y co s Inc. 將其收購, 成為L y cos N et-wo rk 的一個(gè)獨(dú)立的檢索服務(wù)商。Ho tBo t 是一個(gè)非常優(yōu)秀的搜索引擎, 它獲得了美國《個(gè)人電腦》雜志及許多媒體的獎(jiǎng)項(xiàng)。

數(shù)據(jù)庫規(guī)模和范圍:數(shù)據(jù)庫包含1. 1億個(gè)網(wǎng)頁。主題分類目錄由專家組成的編輯對(duì)其進(jìn)行維護(hù), 編輯們對(duì)一些特別好的優(yōu)秀網(wǎng)站進(jìn)行評(píng)論, 讀者也可申請(qǐng)成為某子目錄的編輯。HotBot 除了能夠檢索Web 頁面、新聞?dòng)懻摻M之外, 還包括股票、電子商務(wù)、新聞、商業(yè)信息等服務(wù)。是一個(gè)提供最新、最全面信息服務(wù)的門戶網(wǎng)站。

信息采集方式:HotBot 利用蜘蛛漫游提交的網(wǎng)頁。提交的網(wǎng)頁到最好在HT M L 代碼中有meta 標(biāo)記內(nèi)容, 包括作者、內(nèi)容描述(150個(gè)字母) 和75個(gè)字母的關(guān)鍵詞。對(duì)網(wǎng)站進(jìn)行索引需要3周-60天的時(shí)間, 每個(gè)網(wǎng)站在最多能提交50個(gè)網(wǎng)頁(這些工作需在一天之內(nèi)完成) 。

標(biāo)引內(nèi)容:HotBot 標(biāo)引題名、鏈接點(diǎn)、多媒體文件、利用文本的前20行以及文獻(xiàn)中最重要的100個(gè)詞做索引。根據(jù)M ate 標(biāo)記中的描述和關(guān)鍵詞來排序, 似乎與題名和前250個(gè)字母無關(guān), 建議在首頁

,

  《現(xiàn)代圖書情報(bào)技術(shù)》 2001年 第1期

信息檢索技術(shù)

總第84期

主機(jī)/域名。可選擇的文獻(xiàn)類型有:所有的W eb 、書、城市、軟URL 、

件、FT P 檢索、多媒體、新聞、Open Director y(人工編輯的目錄) 、股票、M P3等14種25種不同的語言。取消了以前的自動(dòng)截詞功能, 大小寫無區(qū)別。

結(jié)果顯示格式:首先列出流行的網(wǎng)站、緊接著是W eb 網(wǎng)站, 最后是新聞。也可對(duì)搜索結(jié)果進(jìn)行再搜索。每條結(jié)果包括題名、摘要、URL 。

結(jié)果排序規(guī)則:Lycos 在搜集文件的過程中采用流行網(wǎng)站優(yōu)先的策略。排序方法根據(jù)網(wǎng)站的流行程度(指被其它網(wǎng)址和文件鏈接的數(shù)量最多, 類似于科學(xué)文獻(xiàn)中的被引率高) 、檢索詞出現(xiàn)的位置和頻度來判斷。分析題名、標(biāo)題和子標(biāo)題、不分析圖像, 但分析圖形標(biāo)記的ALT 屬性。關(guān)鍵詞出現(xiàn)在篇名或大標(biāo)題上的文件, 其相關(guān)性比關(guān)鍵詞出現(xiàn)在文摘中的文件要高。不同的數(shù)據(jù)庫排序依據(jù)不一致。

數(shù)據(jù)庫更新頻率:2-4周。

評(píng)價(jià):用戶界面友好, 在搜索圖像和聲音文件上的能力強(qiáng)。它的優(yōu)點(diǎn)在于它的速度快、使用簡便、相關(guān)性排序較好, 查準(zhǔn)率較高。檢索結(jié)果中文件的重復(fù)率高, 有名存實(shí)亡的鏈接存在。速度有些慢。

U RL , 題名和目錄, 索引人員檢索一個(gè)完整的站點(diǎn), 然后參考自己的主題分類目錄, 將選擇的網(wǎng)頁與主題匹配起來, 這些主題目錄一般在大類目下分成若干小類目, 類目之間按照等級(jí)系統(tǒng)排列。Yahoo 的主題編排主要分14大類:藝術(shù)、商業(yè)和經(jīng)濟(jì)、計(jì)算機(jī)和Internet 、教育、娛樂、政府、健康、新聞、消遣、參考工具書、地區(qū)信息、自然科學(xué)、社會(huì)科學(xué)、社會(huì)和文化, 以超文本指南的方式將主題詞鏈接起來。編輯對(duì)

[*]

質(zhì)量比較高的網(wǎng)頁加上標(biāo)記, 建議用戶優(yōu)先訪問這一地址。表明

該主題在內(nèi)容和版面設(shè)計(jì)上都優(yōu)于其它文件; @符號(hào)代表這個(gè)類目會(huì)同時(shí)出現(xiàn)在Yahoo 的其他分類類目下, 括號(hào)里的數(shù)字代表這個(gè)類目下連結(jié)站點(diǎn)的總數(shù)?!癗ew ”表示這是新增加的類目。

檢索功能:Yahoo 支持簡單和高級(jí)查詢, 在高級(jí)查詢中, Yahoo 支持詞語檢索和 、-、截詞等, 它還提供日期限定, 還有URL 和題名限制檢索等??蛇M(jìn)行時(shí)間限制和控制每屏結(jié)果輸出的數(shù)量(10、25(缺省) 、50或100) 。

結(jié)果顯示格式:按下列順序排列結(jié)果, 首先是滿足查詢條件的Yahoo 目錄和子目錄, 接著是滿足查詢條件的網(wǎng)站, 最后是網(wǎng)頁。網(wǎng)頁只顯示題名、摘要、URL 。

結(jié)果排序規(guī)則:Yah oo 搜尋引擎會(huì)根據(jù)分類類目網(wǎng)站信息與關(guān)鍵字串的相關(guān)程度來排列出相關(guān)的Yahoo 類目和網(wǎng)站。匹配的關(guān)鍵詞越多, 相關(guān)性越高; 檢索詞出現(xiàn)在題名中的文獻(xiàn)給出一個(gè)優(yōu)先的排序。出現(xiàn)在分類目錄中的級(jí)別, 按目錄的級(jí)別從高到低排序。

數(shù)據(jù)庫更新頻率:不定期。

評(píng)價(jià):系統(tǒng)反應(yīng)速度較快, 通過主題主題指南進(jìn)行查詢查準(zhǔn)率高。它的優(yōu)點(diǎn)是反映了人在選擇和組織信息時(shí)的知識(shí)和智慧, 收錄的網(wǎng)頁經(jīng)過篩選和系統(tǒng)組織, 質(zhì)量較高, 條理性比較強(qiáng), 檢索結(jié)果接近用戶的信息需求。缺點(diǎn)是采集信息的速度遠(yuǎn)遠(yuǎn)比不上網(wǎng)絡(luò)資源的增長速度, 所建立的數(shù)據(jù)庫的規(guī)模都比較小, 因此檢索到的文獻(xiàn)數(shù)量有限, 對(duì)于較為專業(yè)偏僻的查詢很難提供滿意的結(jié)果。

2. 6 Y ahoo 網(wǎng)址:ht tp://w ww. y ahoo. com

Y ahoo 于1995年3月1994年底由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦到現(xiàn)在, 從過去一個(gè)單純的互聯(lián)網(wǎng)目錄發(fā)展成為許多人上網(wǎng)沖浪的中心。它現(xiàn)在提供的服務(wù)包括:拍賣, 購物, 開設(shè)網(wǎng)上商店, 個(gè)人免費(fèi)電子信箱服務(wù)、聊天和新聞等多種網(wǎng)絡(luò)服務(wù)。Y ahoo 不是搜索引擎, 而是嚴(yán)格的層次組織的分類主題索引。有150個(gè)編輯人員來維護(hù), 將其收集到的網(wǎng)站及網(wǎng)頁分門別類加以索引和文摘。Y aho o 由人工索引的分類數(shù)據(jù)庫也保證了庫內(nèi)數(shù)據(jù)質(zhì)量較高, 冗余信息較少的優(yōu)點(diǎn)。

數(shù)據(jù)庫規(guī)模和范圍:主題指南提供Internet 資源檢索新聞地圖分類廣告, 股票、運(yùn)動(dòng)、商業(yè)、電話號(hào)碼個(gè)人主頁和電子郵件地址(獨(dú)立數(shù)據(jù)庫) 服務(wù), 它是最大的人工編輯的目錄??蓹z索目錄, W eb 網(wǎng)頁、相關(guān)新聞、網(wǎng)絡(luò)事件等。Yahoo 包含120萬個(gè)網(wǎng)頁內(nèi)容, 如果用戶的檢索詞在Yahoo 中查詢不到結(jié)果, Yah oo 還會(huì)自動(dòng)地將查詢較交給Inktomi, 由后者來為用戶作進(jìn)一步的檢索。In ktomi 是一個(gè)真正的搜索引擎, 它擁有世界上最大的數(shù)據(jù)庫(5億網(wǎng)頁) 。實(shí)際上它在后臺(tái)支持著十幾個(gè)有名的搜索引擎。

信息采集方式:由索引人員用人工方式建立并更新。鼓勵(lì)用戶利用聯(lián)機(jī)表格遞交自己的網(wǎng)頁地址, 用人工和Yahoo 的蜘蛛軟件不定期地在W eb 的“W hat's new ”網(wǎng)站上發(fā)現(xiàn)新文件。Yahoo 對(duì)收集到的信息要進(jìn)行嚴(yán)格的審核和分類。

標(biāo)引內(nèi)容:Yah oo 根據(jù)提交的注冊(cè)表中的信息建立索引, 包括

參考文獻(xiàn)

1 Scott Nich olson. In dexing an d Abstracting on the World Wide

Web :An exam ination of s ix W eb databases . Information T ech-nology and Libraries , 1997, 16(2) :73-812 h ttp://w w w. searchen gines how dow n. com/3 h ttp://w w w. altavista. com/4 h ttp://w w w. excite. com 5 h ttp ://w w w . go . com /6 h ttp://w w w. hotbot. com 7 h ttp://w w w. lycos. com 8 h ttp://w w w. yah oo. com.

(上接第47頁)

參考文獻(xiàn)

1 VE NKE NT N . GUDIVADA , M odeling and Retrieving Imag es

b y Content. Information Process ing &M anagement. 1997(4) 2 Chang S K, Yan C W. Dimitroff D C, Arndt T. An Intelligen t

Image Databas e Sys tem, IEEE Trans on Softw are Engineering , 1998, 14

3 趙丹群. 圖像信息基于內(nèi)容檢索方法的研究分析. 情報(bào)科學(xué),

1998, (6)

4 胡曉峰 劉 毅. Q BIC :一個(gè)典型的基于內(nèi)容的檢索系統(tǒng). 微型

計(jì)算機(jī), 1996, (6)

5 史忠植. 多媒體信息檢索研究動(dòng)態(tài). 計(jì)算機(jī)世界, 1998, 1, 19,

D3

6 胡 宏. 圖像內(nèi)容檢索方法. 計(jì)算機(jī)世界, 1998, 1, 19, D37 h ttp ://w w w . ee . colum bia . edu /s fchang /dem os e . h tm 8 h ttp://w w w. qbic. almaden. ibm. com

9 h ttp://w w w. excalib. com/cgi-bin/s dk/cs t/cst2-bat

標(biāo)簽: