卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

搜索引擎分類

搜索引擎分類按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:1. 目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框

搜索引擎分類

按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:

1. 目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄埽孕畔?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是:Yahoo 、LookSmart 、Open Directory、Go Guide等。

2. 機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista 、Northern Light、Excite 、Infoseek 、Inktomi 、FAST 、Lycos 、Google ;國內(nèi)代表為:" 天網(wǎng)" 、悠游、OpenFind 等。

3. 元搜索引擎:這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler 、InfoMarket 等。

性能指標(biāo)

我們可以將WEB 信息的搜索看作一個(gè)信息檢索問題,即在由WEB 網(wǎng)頁組成的文檔庫中檢索出與用戶查詢相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率(R ecall)和精度(Pricision)衡量一個(gè)搜索引擎的性能。

召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎) 的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎) 的查準(zhǔn)率。對(duì)于一個(gè)檢索系統(tǒng)來講,召回率和精度不可能兩全其美:召回率高時(shí),精度低,精度高時(shí),召回率低。所以常常用11種召回率下11種精度的平均值(即11點(diǎn)平均精度) 來衡量一個(gè)檢索系統(tǒng)的精度。對(duì)于搜索引擎系統(tǒng)來講,因?yàn)闆]有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的WEB 網(wǎng)頁,所以召回率很難計(jì)算。目前的搜索引擎系統(tǒng)都非常關(guān)心精度。

影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。

主要技術(shù)

一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶接口等四個(gè)部分組成。

1. 搜索器

搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:

●從一個(gè)起始URL 集合開始,順著這些URL 中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL 可以是任意的URL ,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo !) 。

●將Web 空間按照域名、IP 地址或國家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索器搜集的信息類型多種多樣,包括HTML 、XML 、Newsgroup 文章、FTP 文件、字

,

處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。

2. 索引器

索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。

索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、 URL 、更新時(shí)間、編碼、長度、鏈接流行度(Link Popularity) 等等;內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語索引項(xiàng)) 兩種。單索引項(xiàng)對(duì)于英文來講是英語單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格) ;對(duì)于中文等連續(xù)書寫的語言,必須進(jìn)行詞語的切分。

在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。

索引表一般使用某種形式的倒排表(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。

索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(Instant Indexing) ,否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度) 有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。

3. 檢索器檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

4. 用戶接口

用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。

用戶輸入接口可以分為簡單接口和復(fù)雜接口兩種。

簡單接口只提供用戶輸入查詢串的文本框;復(fù)雜接口可以讓用戶對(duì)查詢進(jìn)行限制,如邏輯運(yùn)算(與、或、非; 、-) 、相近關(guān)系(相鄰、NEAR) 、域名范圍(如.edu 、.com) 、出現(xiàn)位置(如標(biāo)題、內(nèi)容) 、信息時(shí)間、長度等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。

標(biāo)簽: