近年來國外信息檢索技術(shù)應(yīng)用案例進展研究
技術(shù)導(dǎo)航[文章編號] 1004-325X(2008)03-0091-05近年來國外信息檢索技術(shù)應(yīng)用案例進展研究Research?。铮睢。茫幔螅澹蟆。铮妗。桑睿妫铮颍恚幔簦椋铮睢。遥澹簦颍椋澹觯幔臁。?/p>
技術(shù)導(dǎo)航
[文章編號] ?。保埃埃矗常玻担兀ǎ玻埃埃福埃常埃埃梗保埃?/p>
近年來國外信息檢索技術(shù)應(yīng)用案例進展研究
Research on?。茫幔螅澹蟆。铮妗。桑睿妫铮颍恚幔簦椋铮睢。遥澹簦颍椋澹觯幔臁。裕澹悖瑁睿椋瘢酰澹蟆。幔簟。粒猓颍铮幔?/p>
姜曉曦(中國科學(xué)院研究生院 國家科學(xué)圖書館 北京 100190)
[摘 要] 元搜索、語義檢索、圖像檢索、日志檢索、代理檢索等新的檢索技術(shù)的出現(xiàn)越來越符合現(xiàn)代人們對檢索信息的要求。每個檢索技術(shù)各有其優(yōu)勢和劣勢。這些檢索技術(shù)在實踐中的應(yīng)用與實驗更加證明了它們的高效性和實用性,國外有關(guān)機構(gòu)應(yīng)用案例的試驗效果,為我國有關(guān)機構(gòu)更好地利用信息檢索技術(shù)提供了借鑒。[關(guān)鍵詞] 信息檢索 檢索技術(shù) 案例[中圖分類號] ?。牵玻担玻贰 。畚墨I標(biāo)識碼] ?。?/p>
[Abstract] ?。裕瑁濉。澹恚澹颍纾澹睿悖濉。铮妗。螅澹觯澹颍幔臁。睿澹鳌。椋睿妫铮颍恚幔簦椋铮睢。颍澹簦颍椋澹觯幔臁。簦澹悖瑁睿椋瘢酰澹蟆。纾颍幔洌酰幔欤欤。恚澹澹簦蟆。簦瑁濉。颍澹瘢酰椋颍澹恚澹睿簦螅铮妗。穑澹铮穑欤濉。簦铩。颍澹簦颍椋澹觯濉。椋睿妫铮颍恚幔簦椋铮睿。裕瑁澹螅濉。睿澹鳌。椋睿妫铮颍恚幔簦椋铮睢。颍澹簦颍椋澹觯幔臁。簦澹悖瑁睿椋瘢酰澹蟆。椋睿悖欤酰洌濉。恚澹簦幔螅澹幔颍悖瑁。螅澹恚幔睿簦椋悖颍澹簦颍椋澹觯幔?,?。椋恚幔纾濉。颍澹簦颍椋澹觯幔?, log?。颍澹簦颍椋澹觯幔臁。幔睿洹。幔纾澹睿簟。颍澹簦颍椋澹觯幔欤。牛幔悖琛。瑁幔蟆。椋簦蟆。幔洌觯幔睿簦幔纾澹蟆。幔睿洹。洌椋螅幔洌觯幔睿簦幔纾澹螅裕瑁濉。穑颍幔悖簦椋悖幔臁。幔穑穑欤椋悖幔簦椋铮睢。幔睿洹。澹穑澹颍椋澹睿悖濉。铮妗。簦瑁澹螅濉。簦澹悖瑁睿椋瘢酰澹蟆。洌澹妫椋睿椋簦澹欤。穑颍铮觯濉。簦瑁澹椋颉。澹妫妫澹悖簦椋觯澹睿澹螅蟆。幔睿洌穑颍幔悖簦椋悖幔欤椋簦。裕瑁濉。澹妫妫澹悖簟。铮妗。帷。妫澹鳌。悖铮颍颍澹欤幔簦椋觯濉。妫铮颍澹椋纾睢。铮颍纾幔睿椋幔簦椋铮睿蟆。幔穑穑欤椋睿纭。椋睿妫铮颍恚幔簦椋铮睢。颍澹簦颍椋澹觯幔臁。簦澹悖瑁睿椋瘢酰澹螅穑颍铮觯椋洌澹蟆。颍澹妫澹颍澹睿悖澹蟆。妫铮颉。洌铮恚澹螅簦椋恪。悖铮颍颍澹欤幔簦椋觯濉。椋睿螅簦椋簦酰簦椋铮睢。簦铩。酰螅濉。桑摇。簦澹悖瑁睿椋瘢酰澹蟆。鳎澹欤欤郏耍澹。鳎铮颍洌螅荨 。桑睿妫铮颍恚幔簦椋铮睢。颍澹簦颍椋澹觯幔?;?。遥澹簦颍椋澹觯幔臁。簦澹悖瑁睿椋瘢酰?;?。茫幔螅澹?/p>
國外學(xué)界的專家們?yōu)榱顺浞掷枚鄻拥男畔①Y源,幫助用戶從海量信息里找到符合要求的資源,對信息檢索技術(shù)展開了研究,語義檢索、視頻檢索、圖像檢索等新的檢索技術(shù)的出現(xiàn)越來越符合現(xiàn)代人們對檢索信息的要求,同時這些檢索技術(shù)在實踐中的應(yīng)用與實驗更加證明了它們的高效性和實用性。
1 元搜索信息檢索技術(shù)
元搜索指的是這類檢索技術(shù)將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結(jié)果進行重復(fù)排查、重新排序等處理后,作為自己的結(jié)果返回給用戶,服務(wù)方式是面向網(wǎng)頁的全文檢索。Innovative?。桑睿簦澹颍妫幔悖澹螅А。停澹簦幔疲椋睿洹【褪抢?/p>
[31]Johnson?。茫粒。樱铮悖椋幔臁。茫幔穑椋簦幔臁。幔睿洹。簦瑁濉。樱澹幔颍悖琛。妫铮颉。桑睿妫铮颍恚幔簦椋铮睿骸。牛幔恚椋睿椋睿?/p>
the?。遥铮欤濉。铮妗。樱铮悖椋幔臁。茫幔穑椋簦幔臁。椋睢。桑睿妫铮颍恚幔簦椋铮睢。樱澹澹耄椋睿纭。拢澹瑁幔觯椋铮颉。椋睢。停铮睿纾铮欤椋幔郏剩荩剩铮酰颍睿幔臁。铮妗。簦瑁濉。粒恚澹颍椋悖幔睢。樱铮悖椋澹簦。妫铮颉。桑睿妫铮颍恚幔簦椋铮睢。樱悖椋澹睿悖濉。幔睿洌裕澹悖瑁睿铮欤铮纾?,?。玻埃埃罚ǎ叮海福福常福梗矗?/p>
[32]Spink?。?,?。校幔颍搿。?,?。耍铮螅瑁恚幔睢。樱。疲幔悖簦铮颍蟆。粒妫妫澹悖簦椋睿纭。粒螅螅椋纾睿澹洹。桑睿妫铮颍恚幔簦椋铮?/p>
Problem Ordering?。洌酰颍椋睿纭。祝澹狻。樱澹幔颍悖瑁骸。粒睢。牛穑欤铮颍幔簦铮颍。樱簦酰洌郏剩荩桑睿妫铮颍恚幔簦椋铮睢。校颍铮悖澹螅螅椋睿纭。幔睿洹。停幔睿幔纾澹恚澹睿簦。玻埃埃叮ǎ担海保常叮叮保常罚福郏常常荩耍幔欤猓幔悖琛。剩 埃桑В怼。妫澹澹欤椋睿纭。欤酰悖耄保骸。裕瑁濉。遥铮欤濉。铮妗。牛恚铮簦椋铮睿蟆。椋睢。樱澹澹耄椋睿?/p>
Information?。铮睢。簦瑁濉。祝澹猓郏剩荩剩铮酰颍睿幔臁。铮妗。簦瑁濉。粒恚澹颍椋悖幔睢。樱铮悖椋澹簦。妫铮颍桑睿妫铮颍恚幔簦椋铮睢。樱悖椋澹睿悖濉。幔睿洹。裕澹悖瑁睿铮欤铮纾。玻埃埃叮ǎ叮海福保常福保福?/p>
[34]Laurie HJ,?。疲颍椋澹洌恚幔睢。模?,?。茫澹欤澹螅簦椋睿濉。粒。牛觯幔欤酰幔簦椋铮睢。铮妗。帷。校酰猓欤椋恪。蹋椋猓颍幔颍?/p>
Workshop: Teaching?。希欤洌澹颉。粒洌酰欤簦蟆。龋铮鳌。簦铩。樱澹幔颍悖琛。簦瑁濉。桑睿簦澹颍睿澹簟。妫铮颍遥澹欤椋幔猓欤濉。茫幔睿悖澹颉。桑睿妫铮颍恚幔簦椋铮睿郏剩荩剩铮酰颍睿幔臁。铮妗。茫铮睿螅酰恚澹颉。龋澹幔欤簦琛。铮睢。簦瑁澹桑睿簦澹颍睿澹?, 2006(3):29-43.
[35]Agichtein?。?,?。拢颍椋欤臁。?, Dumais?。樱桑恚穑颍铮觯椋睿纭。祝澹狻。樱澹幔颍悖琛。遥幔睿耄椋睿纭。猓?/p>
Incorporating User?。拢澹瑁幔觯椋铮颉。桑睿妫铮颍恚幔簦椋铮睿郏剩荩樱桑牵桑摇。疲铮颍酰怼。玻埃埃叮校颍铮悖澹澹洌椋睿纾?,?。玻埃埃叮ǎ常梗海保梗玻叮?/p>
[36]Nicholas?。?,?。龋酰睿簦椋睿纾簦铮睢。?,?。剩幔恚幔欤椤。龋?,?。澹簦悖。裕瑁濉。桑睿妫铮颍恚幔簦椋铮睢。樱澹澹耄椋睿?/p>
Behaviour?。铮妗。簦瑁濉。眨螅澹颍蟆。铮妗。模椋纾椋簦幔臁。樱悖瑁铮欤幔颍欤。剩铮酰颍睿幔欤螅郏剩荩桑睿妫铮颍恚幔簦椋铮睿校颍铮悖澹螅螅椋睿纭。幔睿洹。停幔睿幔纾澹恚澹睿?,?。玻埃埃叮ǎ担海保常矗担保常叮担?/p>
[37]Rutten?。蹋剩疲。樱瘢酰椋澹颍蟆。?,?。龋澹螅螅濉。拢。茫幔睿悖澹颍遥澹欤幔簦澹洹。桑睿妫铮颍恚幔簦椋铮睢。樱澹澹耄椋睿纾?/p>
Hints?。妫颍铮怼。簦瑁濉。玻埃埃场。龋澹幔欤簦琛。桑睿妫铮颍恚幔簦椋铮睢。危幔簦椋铮睿幔臁。裕颍澹睿洌蟆。樱酰颍觯澹ǎ龋桑危裕樱郏剩荩。剩铮酰颍睿幔臁。铮妗。龋澹幔欤簦琛。茫铮恚恚酰睿椋悖幔簦椋铮?,?。玻埃埃叮ǎ常海保矗罚保担叮郏常福荩蹋澹鳎椋蟆。裕。樱澹澹耄椋睿纭。龋澹幔欤簦琛。桑睿妫铮颍恚幔簦椋铮睢。铮睢。簦瑁濉。桑睿簦澹颍睿澹簦骸。蹋椋妫澹螅簦欤濉。茫瑁铮椋悖?/p>
or Bad?。粒簦簦幔悖搿。铮妗。茫猓澹颍悖瑁铮睿洌颍椋幔浚郏剩荩停澹洌椋?, Culture?。幔睿洹。樱铮悖椋澹簦?,?。玻埃埃叮ǎ矗海担玻保担常梗?/p>
[39
]Toms,?。牛欤幔椋睿濉。牵龋铮鳌。茫铮睿螅酰恚澹颍蟆。樱澹幔颍悖琛。妫铮颉。龋澹幔欤簦琛。桑睿妫铮颍恚幔簦椋铮睿郏剩荩?/p>
Health?。桑睿妫铮颍恚幔簦椋悖蟆。剩铮酰颍睿幔欤。玻埃埃罚ǎ常海玻玻常玻常担?/p>
[作者簡介]
黃飛燕 女,1984年生,中國科學(xué)院國家科學(xué)圖書館碩士研究生,發(fā)表論文6篇。
徐 靜 女,1986年生,北京大學(xué)信息管理系碩士研究生?! 。凼崭迦掌冢海玻埃埃福埃玻玻玻?/p>
?91?
,用這種搜索原理的產(chǎn)品之一,它可以幫助用戶找到對其有用但是還沒被注意到的資源。密西西比大學(xué)圖書館目前購買了這個元搜索產(chǎn)品,并與該圖書館的頁面相結(jié)合,目的是為用戶提供更好的信息檢索服務(wù)[1]。
2 語義信息檢索技術(shù)
完全基于造句法內(nèi)容建立的信息檢索系統(tǒng)具有很大的局限性,這種檢索技術(shù)應(yīng)用的挑戰(zhàn)之一就是開發(fā)高質(zhì)量、高精確度的系統(tǒng)。為了實現(xiàn)這一目標(biāo),引用自然語言處理(Natural?。蹋幔睿纾酰纾濉。校颍铮悖澹螅螅椋睿?,?。危蹋校┘夹g(shù)在這類系統(tǒng)中是十分必要的。這種技術(shù)可以為信息檢索系統(tǒng)提供語義信息,在不同的NLP技術(shù)中語義信息描述的方法以及語義標(biāo)簽已經(jīng)受到學(xué)者的重視,并被研究者們逐步開發(fā)和試驗。
1.1 搜索
密西西比大學(xué)圖書館采用主題和全文可用性兩種方法組織其電子資源,最常用的是“全文”類。該類別是由圖書館包含的全文資源的百分比定義的,如果該圖書館某類資源包含50%以上的全文,它就包含在“全文”這一類別中。這樣做雖然使得用戶檢索的資源不都是全文,但是至少保證了絕大部分是全文。其余的種類包括便覽、圖書館目錄、數(shù)字資源、公眾可獲得的數(shù)據(jù)庫和廣泛的主題類等。其中基于主題類搜索的元搜索工具預(yù)先自動設(shè)定了每個主題大類的幾個核心數(shù)據(jù)庫作為默認選項,即使用戶不了解該主題領(lǐng)域也能搜索到相關(guān)的文獻,如果用戶是該領(lǐng)域的專家則可以通過自己添加來擴大檢索數(shù)據(jù)庫的數(shù)量。
2.1 語義元素在ESCRIRE工程中的應(yīng)用
ESCRIRE(Embedded?。樱簦颍酰悖簦酰颍澹洹。悖铮睿簦澹睿簟。遥澹穑颍澹螅澹睿簦幔簦椋铮睿桑睢。遥澹穑铮螅椋簦铮颍椋澹螅C構(gòu)庫中的嵌入式結(jié)構(gòu)內(nèi)容揭示)工程第1個目的是比較3種知識表示法的形式:概念圖表、描述邏輯和以目標(biāo)為導(dǎo)向的表示語言;第2個目的是為文檔檢索表達和處理文本內(nèi)容。學(xué)者R.Carolina?。停澹洌椋睿幔遥幔恚椋颍x擇了PubMed數(shù)據(jù)庫中4?。担埃捌嘘P(guān)生物文章的摘要,在ESCRIRE中進行了試驗,ESCRIRE提出的響應(yīng)形式是簡單的,它包含一個由相關(guān)文獻和提交的查詢組成的列表,Medina和他的研究隊伍在此基礎(chǔ)上提出了豐富該響應(yīng)形式的方法[2]?!∷麄兝帽倔w和資源描述豐富了提交給用戶的回答,通過Corese語義搜索引擎將查詢中使用的自然語言轉(zhuǎn)化成ESCRIRE語言,很容易地獲取有注釋的信息。其中包括由Corese語義搜索引擎檢索到的文章的摘要組成的超文檔,以及這個文檔也鏈接到的其他的文檔:PubMed中的原始文檔、制定的查詢和交互信息等,作者名、期刊、出版日期等同樣也包含在這個超文檔中,目的是給用戶提供額外的信息。
這項試驗使用了私人擁有的知識描述語言(ESCRIRE語言)來描繪域本體和注釋,在利用資源描述框架(ResourceDescriptiion?。疲颍幔恚澹鳎铮颍。遥模疲┻^程中研究人員發(fā)現(xiàn)了一些轉(zhuǎn)換問題,在語義網(wǎng)絡(luò)內(nèi)容檢索中,像RDF和OWL(WebOntology?。蹋幔睿纾酰幔纾澹≌Z義網(wǎng)本語言)這類的語言是被推薦的,利用這種語言可以模仿和共享特殊用戶團體的知識。試驗結(jié)論是私人擁有的語言是不被推薦使用的,因為它們與語義網(wǎng)的結(jié)構(gòu)不協(xié)調(diào)。
1.2 響應(yīng)時間
元搜索工具所有問題之中最具有挑戰(zhàn)性的要數(shù)響應(yīng)時間了。一般來說響應(yīng)時間受到圖書館網(wǎng)絡(luò)、校園網(wǎng)絡(luò)、校園外的網(wǎng)絡(luò)供應(yīng)者等因素的影響,如果將用戶搜索的資源所在的網(wǎng)絡(luò)和認證的變量也算在內(nèi),響應(yīng)時間的問題就更加難以控制了。密西西比大學(xué)圖書館購買的是 InnovativesWeb?。粒悖悖澹螅蟆。停幔睿幔纾澹恚澹睿簟。停铮洌酰欤濉。ǎ祝粒停┑恼J證系統(tǒng),該模型是基于EZ代理服務(wù)器(ezproxy)的。需要發(fā)現(xiàn)并解決的問題包括追捕到棘手的轉(zhuǎn)換裝置、防火墻裝置、校園域名服務(wù)器(Domain Name?。樱澹颍觯澹?,簡稱DNS)以及賣主的DNS等。MetaSearch (元搜索)工具在代理服務(wù)器上放置了一個重要的載荷增長,通過統(tǒng)計數(shù)字得出,24%的代理服務(wù)器頁面請求來自MetaSearch產(chǎn)品。盡管取得了一定的進展,但是響應(yīng)時間問題仍然是元搜索最難克服的障礙,一個MetaSearch統(tǒng)計模塊應(yīng)該帶有使用數(shù)據(jù)和響應(yīng)時間的信息,響應(yīng)時間的信息對發(fā)現(xiàn)并修理故障和電子資源賣主是非常有用的。
1.3 結(jié)果相關(guān)性
相關(guān)性的問題是MetaSearch的熱點話題,把增加相關(guān)性計算作為一個檢索步驟意味著所有的結(jié)果都要返回、排列并且顯示出來。該圖書館使用的增加相關(guān)性的辦法是將默認索引從關(guān)鍵字改稱題名關(guān)鍵字,對于用戶來說恢復(fù)題名中的關(guān)鍵字使得檢索結(jié)果更加相關(guān),但是使用題名關(guān)鍵字需要注意的是: 這里有許多資源不支持題名關(guān)鍵字檢索。對于其他資源來說,題名關(guān)鍵字不是合適的索引。在這種情況下,檢索就會失敗并且注明索引是不被支持的。為了調(diào)解這種情況,有些資源就要從基本關(guān)鍵字檢索映射到題名關(guān)鍵字檢索,盡管這樣會降低相關(guān)性,但是可以避免錯誤的出現(xiàn),同時允許結(jié)果被重新獲得。
2.2 語義角色標(biāo)簽(Semantic?。遥铮欤濉。蹋幔猓澹欤椋睿纭。。樱遥蹋?/p>
語義角色是指一個造句法成分和一個謂語之間的關(guān)系。目前很多實踐都試圖將語義角色標(biāo)簽應(yīng)用到信息檢索系統(tǒng)中,但是都失敗了。西班牙阿利坎特大學(xué)的教授們進行了一個試驗,將語義角色標(biāo)簽引進到信息檢索系統(tǒng)中,對系統(tǒng)進行了拓展,這個試驗通過減少檢索出的不相關(guān)文獻的數(shù)量來提高檢索性能[3]。在語義角色注釋過程中,他們采用了兩種方法:最大熵和TiMBL法。最大熵模型提供了一個框架來對許多不同信息源的信息進行集成分類,該試驗采用的是最大熵條件概率模型;TiMBL是一個程序,該程序是用來執(zhí)行基于存儲器的知識運算法則的。所有執(zhí)行的
?92?
,運算法則有共同點,就是它們在存儲器中明確地存儲了一些訓(xùn)練集的表示法,在試驗過程中新的案例是根據(jù)存儲的案例中最相似的進行推斷來分類的。該小組在進行試驗時使用了SemBol方法,該方法共分為3個步驟:首先將句子中動詞的意義消除歧義;其次在識別階段,關(guān)于消除歧義動詞的論據(jù)分界必須確定;最后在標(biāo)簽階段,充當(dāng)這些論據(jù)的角色必須被消除歧義。根據(jù)這個SemBol方法,實驗小組提出了一個擴展的信息檢索系統(tǒng),其結(jié)構(gòu)如圖1所示。圖1 利用SemBol方法擴展的信息檢索系統(tǒng)框架[3]
局限性,例如查詢的種類受限制、查詢的性能比較低。為了解決這類問題,基于內(nèi)容的圖像檢索是目前學(xué)者們積極追求的檢索技術(shù)。
基于內(nèi)容的圖像檢索(Content-based Image?。遥澹簦颍椋澹觯幔欤┎捎玫蛯哟蔚膱D像特征如顏色、形狀和結(jié)構(gòu)等來檢索。目前為止,基于顏色的圖像檢索技術(shù)仍然很流行,并在很多CBIR檢索應(yīng)用中被采用。它由于本身的易于應(yīng)用和有效性以及顏色元素在圖像中容易記住等優(yōu)勢,比基于形狀和結(jié)構(gòu)的圖像檢索應(yīng)用得廣泛。但是澳大利亞Monash大學(xué)信息技術(shù)學(xué)院的兩位學(xué)者經(jīng)過調(diào)查研究發(fā)現(xiàn),基于顏色的圖像檢索也存在著一定的局限性,因此他們提出了基于向量量化(VQ?。郑澹悖簦铮颉。眩酰幔睿簦椋帷。簦椋铮睿┑膱D像檢索[4]。他們認為VQ是圖像檢索的一種有效的方式,因為從VQ得來的壓縮數(shù)據(jù)能夠直接映射到像素模式,這就意味著基于圖像VQ壓縮數(shù)據(jù)可以捕獲圖像的語義和特征。該檢索技術(shù)首先將圖像分成固定大小的像素塊——向量,對于每個向量編碼本都會搜索到一個最匹配的代碼,同時登陸的索引號就會代替向量進行轉(zhuǎn)移或存儲,索引號的序列就是被壓縮的比特流;其次,編碼本和比特流被傳送到解碼器進行解碼,解碼后的向量是一個初始向量的近似值;最后會得到一個高度壓縮的比率。在VQ壓縮后,每個像素塊都用一個編碼索引號表示,學(xué)者們就可以根據(jù)這些索引號來抽取圖像特征,完成圖像標(biāo)引和檢索。兩位研究者利用這一原理對VQ圖像檢索進行了試驗,試驗結(jié)果表明,VQ圖像檢索技術(shù)可以在圖像標(biāo)引中捕獲像素的空間信息,提高了圖像檢索的效率。此外,研究者將該檢索方法與現(xiàn)有的基于顏色的檢索技術(shù)進行了比較分析,結(jié)果顯示,VQ圖像檢索技術(shù)比現(xiàn)存3種方法的檢索性能要略勝一籌。
這個信息檢索系統(tǒng)包括4個模塊:IR模塊、問題處理模塊、句子處理模塊和語義模塊。當(dāng)一個完整的句子查詢輸入系統(tǒng)中時,該句子被看成是一個事件,IR系統(tǒng)就是將與事件有關(guān)的文本的片段定位在查詢里,查詢結(jié)束后,IR模塊在系統(tǒng)中檢索出了一個段落或文獻集,將該集中的動詞和句子中的動詞相比較,并將與該動詞有關(guān)的句子列成表;隨后,選出來的句子通過SemBol方法被標(biāo)注為語義角色,試驗的最后一個關(guān)系集被應(yīng)用了,該關(guān)系集是建立在句號和語義角色之間的。只有包含正確語義角色的句子才被選取,也就是說檢索到的文章數(shù)將減少,這樣檢索準(zhǔn)確性就得到了提高。
4 查詢?nèi)罩緳z索技術(shù)
傳統(tǒng)的信息檢索系統(tǒng)利用文集、文件以及查詢統(tǒng)計來確定比較符合用戶問題的答案,但是這種查詢可以在查詢?nèi)罩局胁东@,提供額外的相關(guān)資料來源。近幾年,專家們把相當(dāng)多的目光投向了對查詢?nèi)罩竞腿藗儽磉_信息需求方式的研究上,開發(fā)出了許多商業(yè)搜索引擎的查詢?nèi)罩救纾牛悖椋簦宓?,另外查詢?nèi)罩驹谛畔z索領(lǐng)域如查詢拓展、文本檢索和圖像檢索中也得到了應(yīng)用。
4.1 利用查詢?nèi)罩窘ⅲ疲粒褭z索系統(tǒng)
為了提高檢索性能,先前的FAQ檢索系統(tǒng)利用了高水平的知識基準(zhǔn)和手工控制,但是當(dāng)應(yīng)用領(lǐng)域有所變化時,構(gòu)建這樣的知識基準(zhǔn)和規(guī)則是一項費時費力的工作。為了解決這個問題,韓國的研究人員提出了一個利用查詢?nèi)罩咀鳛橹R來源的高性能FAQ檢索系統(tǒng)[5]。該系統(tǒng)全稱為FaqRetrieval And?。茫欤酰螅簦澹颍椋睿纭。裕澹悖瑁睿椋瘢酰澹ǎ疲遥粒茫裕?,它包含了兩個子系統(tǒng):一個查詢?nèi)罩揪垲愊到y(tǒng)和一個基于聚類的檢索
3 圖像檢索技術(shù)
為了有效地利用數(shù)字圖書館中存儲的信息,圖像標(biāo)引和檢索技術(shù)是十分重要的。早期的圖像檢索系統(tǒng)使用傳統(tǒng)數(shù)據(jù)庫管理的方式來標(biāo)引檢索圖像,以簡單的性質(zhì)如圖像數(shù)量和文本描述等為檢索基礎(chǔ),這些檢索方式具有一定的
?93?
,系統(tǒng)。聚類系統(tǒng)定期收集和精煉用戶的查詢?nèi)罩?,然后將每個FAQ作為獨立的類別,并通過語義空間中向量相似度測量把查詢?nèi)罩痉值礁鱾€FAQ類別里去?!≡诜诸惖幕A(chǔ)上,查詢?nèi)罩揪垲愊到y(tǒng)將查詢?nèi)罩具M行聚類并計算每個查詢?nèi)罩敬氐馁|(zhì)心。當(dāng)用戶輸入查詢時,基于聚類的檢索系統(tǒng)通過查詢?nèi)罩敬貋碛嬎悴樵兒停疲粒阎g的相似性,根據(jù)計算出的相似性,檢索系統(tǒng)將有關(guān)的FAQ進行排列并返回一個列表。在標(biāo)引的時候,該系統(tǒng)通過潛在的語義分析,利用分類技術(shù)有效地聚類用戶查詢?nèi)罩?;在檢索時,該系統(tǒng)利用查詢?nèi)罩敬厥沟茫疲粒巡樵兏禹槙?。研究人員還將這個系統(tǒng)應(yīng)用到實際中進行了試驗, 通過不同的實驗,他們發(fā)現(xiàn)該系統(tǒng)可以減少短文章檢索中的詞匯爭論問題,在FAQ檢索方面,該系統(tǒng)的性能也優(yōu)于其他傳統(tǒng)信息檢索系統(tǒng),此外,由于僅僅采用數(shù)據(jù)驅(qū)動的方法而不用高層次知識源,該系統(tǒng)要比早先的FAQ檢索系統(tǒng)更加實際和可靠。
統(tǒng)性能和服務(wù)質(zhì)量。此外,該方法可以利用動態(tài)匯聚網(wǎng)絡(luò)環(huán)境, 通過監(jiān)視和適合變換的網(wǎng)絡(luò)條件來不斷調(diào)整移動代理的路線。利用移動代理構(gòu)建的檢索系統(tǒng)結(jié)構(gòu)如圖2。
圖?。病 〈硐到y(tǒng)結(jié)構(gòu)[7]
該結(jié)構(gòu)由3個層次構(gòu)成,應(yīng)用層:移動代理在該層運行,每個代理被分配了一個用戶的目標(biāo),并且按照自己的路線在網(wǎng)絡(luò)中移動;靜態(tài)層:該層可以給移動代理提供計算或數(shù)據(jù)資源來完成它們的檢索任務(wù);服務(wù)層:該層包括目錄、計劃、遷移、交流和安全等服務(wù)。
模擬研究表明,利用運算法則的系統(tǒng)能要比利用網(wǎng)絡(luò)中與節(jié)點數(shù)一樣多的代理的系統(tǒng)整體性能好得多。該方法利用動態(tài)代理,大大增強了動態(tài)會聚網(wǎng)絡(luò)中分布信息檢索系統(tǒng)的性能,同時為了更好地適應(yīng)實際網(wǎng)絡(luò)環(huán)境,研究人員還提供了一個安全容錯機制。
4.2 分布式信息檢索
為了改進分布式信息檢索系統(tǒng),澳大利亞皇家墨爾本理工在學(xué)(RMIT)的學(xué)者們提出了利用查詢?nèi)罩驹诜植际叫畔z索環(huán)境中建立詞表的最新檢索技術(shù),構(gòu)建了基于查詢?nèi)罩镜膬煞N新的檢索技術(shù)應(yīng)用[6]?!〉谝环N是在不合作的環(huán)境中為分布式資源提供新的取樣方法,該方法利用搜索引擎查詢?nèi)罩局锌捎玫男g(shù)語來聚焦取樣過程。實驗證明,這種方法并不比先前的基于查詢的取樣方法耗費大,而且生產(chǎn)出的樣本使得檢索更加有效。第二種應(yīng)用是,查詢?nèi)罩究梢杂脕砭劢姑嫦驅(qū)τ脩糁匾臈l件的索引修整策略。該索引修剪策略可以保持系統(tǒng)的效力,與全文索引相比,可以減少22%-28%的索引。將該策略應(yīng)用到多種網(wǎng)絡(luò)檢索任務(wù)中,通過評估發(fā)現(xiàn),盡管許多主題包含詞表以外的術(shù)語,但是修剪過的索引檢索到的相關(guān)答案與原始索引檢索到的一樣有效。研究者的實驗表明,利用查詢?nèi)罩驹O(shè)計檢索系統(tǒng)既減少了索引的數(shù)量又沒有改變檢索的效率, 因此在分布式信息檢索環(huán)境中,利用查詢?nèi)罩臼且粋€重要的并且有效的機制。
5.2 奧德賽搜索引擎(Odyssey Search Engine,?。希樱牛?/p>
巴西聯(lián)邦大學(xué)的研究人員開發(fā)了一個多代理系統(tǒng)來進行成分信息檢索,該系統(tǒng)被稱為Odyssey Search?。牛睿纾椋睿澹ǎ希樱牛郏福荨#希樱攀且粋€提供分布式獲取或存儲域成分信息的搜索和檢索系統(tǒng),利用它可以提高目前成分信息的發(fā)現(xiàn)和檢索。在OSE結(jié)構(gòu)中,通過過濾代理層對與成分有關(guān)的域信息進行過濾,在過濾層中用戶的喜好、過去的檢索、導(dǎo)航的路經(jīng)以及常用的關(guān)鍵字都被用來提高和精確檢索。該過濾代理主要依靠用戶在域中的喜好和檢索經(jīng)歷提供成分信息的挑選,在導(dǎo)航的過程中,機器學(xué)習(xí)技術(shù)被用來觀察和了解用戶的行為;OSE還有一個特點就是可以利用調(diào)解層和域本體從一些域中檢索異質(zhì)的分布式信息。調(diào)解層為組織在域本體中的可用成分信息提供了統(tǒng)一的格式,域本體通過領(lǐng)域語義概念的表述來搜索可再次利用的成分信息,因此這個調(diào)解層促進了域信息的綜合,提供了通過本體翻譯成分信息的機制。實驗證明這個OSE系統(tǒng)是有效的,目前該系統(tǒng)是第一個與域模型結(jié)合進行成分信息檢索的系統(tǒng)。
5 基于代理的信息檢索技術(shù)5.1 時控的移動代理檢索(TMAP)
對于分布式信息檢索中的移動代理計劃來說,移動代理數(shù)目和總的執(zhí)行時間是描述上層系統(tǒng)的兩個因素?!〈送?,為了提高信息檢索的質(zhì)量,信息倉儲節(jié)點的時間約束也要考慮在內(nèi)。在過去的研究中,移動代理計劃(Mobile AgentPlanning, MAP)方法沒有考慮到動態(tài)匯聚網(wǎng)絡(luò)的條件,如Peer?。簦铩。校澹澹颉。ǎ校簦铮校Φ扔嬎阒锌勺兊木W(wǎng)絡(luò)帶寬和斷開,為了更好地進行檢索, 對網(wǎng)絡(luò)條件具有敏感性的移動代理亟待開發(fā)。韓國首爾國立大學(xué)的學(xué)者們提出了一個新的MAP方法,被稱為Timed?。停铮猓椋欤濉。粒纾澹睿簟。校欤幔睿睿椋睿纾郏罚?。這種方法試圖減少移動代理的數(shù)量和總的執(zhí)行時間,為的是實現(xiàn)更好的系
6 多媒體信息檢索技術(shù)6.1 視頻檢索
與文本、聲音和圖像相比,視頻是一個承載信息豐富的媒體,現(xiàn)代技術(shù)使得對視頻的捕獲、壓縮、存儲和轉(zhuǎn)移
?94?
,變得十分簡單,導(dǎo)致大量視頻信息的產(chǎn)生,因此如何從大量視頻信息中進行檢索越來越受到研究人員的關(guān)注。都柏林城市大學(xué)的兩位學(xué)者創(chuàng)建了一個支持多種特征檢索的系統(tǒng),該系統(tǒng)包含通過口頭對話的文本檢索、依靠關(guān)鍵幀的圖像匹配和依靠分割視頻對象的目標(biāo)匹配。其中最后一部分即自動分割和追蹤視頻對象是一個過分要求計算的問題,并且對于普通的視頻資料該問題尚未解決[9]。 研究人員通過在一個卡通片的封閉域里的實驗完成了目標(biāo)分割,在中等尺寸的視頻資源中進行了用戶交互性實驗,并且測量了用戶對視頻文件的使用情況和在多重反復(fù)搜索中的檢索模式。該實驗的目的是測量基于目標(biāo)的檢索是否比文本檢索和關(guān)鍵幀匹配更加有用,實驗是由15名用戶在一個受控的標(biāo)準(zhǔn)環(huán)境中每人完成12個不同的檢索任務(wù),從實驗結(jié)果可以看出用戶在檢索中使用視頻對象或者對象的成分作為查詢的一部分,因此目前以對象為基礎(chǔ)的檢索是視頻檢索的主要技術(shù)。
優(yōu)勢進一步擴大,將劣勢逐漸地縮小,從而產(chǎn)生對信息檢索最有效的技術(shù),為用戶提供更好的服務(wù)。本文通過對國外主要信息檢索技術(shù)及其應(yīng)用的介紹,旨在為我國信息檢索技術(shù)的發(fā)展提供指導(dǎo)和借鑒。
圖?。场 ∠到y(tǒng)流程圖[10]
6.2 對話查詢語音界面
早先的自動語言識別系統(tǒng)存在著許多局限性,如識別過程產(chǎn)生的失誤、口語表達的冗余和用戶查詢的含糊等,在傳統(tǒng)的數(shù)據(jù)庫查詢?nèi)蝿?wù)中,通過以語義為基礎(chǔ)提煉和確認關(guān)鍵詞就可以很容易地解決這些問題,但是將語言識別應(yīng)用到普通的文本檢索系統(tǒng)中就不那么容易了?!榱耸刮谋緳z索系統(tǒng)更加有效地解決這些問題,日本學(xué)者為帶有語音界面的檢索系統(tǒng)設(shè)計了一個對話策略來闡明和約束查詢。他
[10]
參考文獻?。海郏保荩龋澹颍颍澹颍帷。牵。停澹簦幔樱澹幔颍悖瑁椋睿纭。幔睿洹。拢澹铮睿洌骸。桑恚穑欤澹恚澹睿簦幔簦椋铮睢。牛穑澹颍椋澹睿悖澹?/p>
and?。粒洌觯椋悖濉。妫颍铮怼。幔睢。粒悖幔洌澹恚椋恪。蹋椋猓颍幔颍郏剩荩。桑睿妫铮颍恚幔簦椋铮睢。裕澹悖瑁睿铮欤铮纾幔睿洹。蹋椋猓颍幔颍椋幔睿?, 2007(6).
[2]Medina-Ramirz?。遥茫。樱澹恚幔睿簦椋恪。桑睿妫铮颍恚幔簦椋铮睢。遥澹簦颍椋澹觯幔欤骸。帷。遥澹簦酰颍睢。铮?/p>
Experience[J].EngineeringLetters,2007(11).
[3]Moreda?。校。危幔觯幔颍颍铩。?, Palomar?。停。茫铮颍穑酰螅猓幔螅澹洹。樱澹恚幔睿簦椋恪。遥铮欤?/p>
Approach?。椋睢。桑睿妫铮颍恚幔簦椋铮睢。遥澹簦颍椋澹觯幔欤郏剩荩。模幔簦帷。幔睿洹。耍睿铮鳎欤澹洌纾澹牛睿纾椋睿澹澹颍椋睿?,2007(61):467-483.
[4]Teng?。樱祝。蹋酢。牵酰铮辏酰睿。桑恚幔纾濉。桑睿洌澹椋睿纭。幔睿洹。遥澹簦颍椋澹觯幔臁。拢幔螅澹洹。铮睢。郑澹悖簦铮?/p>
Quantization[J].?。校幔簦簦澹颍睢。遥澹悖铮纾睿椋簦椋铮?,2007(40):3299-3316.[5]Kim?。龋。蹋澹濉。?, Seo?。剩。痢。遥澹欤椋幔猓欤濉。疲粒选。遥澹簦颍椋澹觯幔臁。樱螅簦澹怼。眨螅椋睿纭。帷。眩酰澹颍?/p>
Log?。茫欤幔螅螅椋妫椋悖幔簦椋铮睢。裕澹悖瑁睿椋瘢酰濉。拢幔螅澹洹。铮睢。蹋幔簦澹睿簟。樱澹恚幔睿簦椋恪。粒睿幔欤螅椋螅郏剩荩桑睿妫铮颍恚幔簦椋铮睢。校颍铮悖澹螅螅椋睿纭。幔睿洹。停幔睿幔纾澹恚澹睿簦。玻埃埃罚ǎ矗常海矗玻埃矗常埃郏叮荩樱瑁铮耄铮酰瑁椤。?,?。冢铮猓澹臁。剩。裕幔瑁幔纾瑁铮纾瑁椤。?,?。澹簦悖。眨螅椋睿纭。眩酰澹颍。蹋铮纾蟆。簦铩。牛螅簦幔猓欤椋螅?/p>
Vocabularies?。椋睢。模椋螅簦颍椋猓酰簦澹洹。桑睿妫铮颍恚幔簦椋铮睢。遥澹簦颍椋澹觯幔欤郏剩荩。桑睿妫铮颍恚幔簦椋铮睿校颍铮悖澹螅螅椋睿纭。幔睿洹。停幔睿幔纾澹恚澹睿?, 2007(43):169-180.
[7]Baek?。剩?, Yeom?。龋伲。痢。裕椋恚澹洹。停铮猓椋欤濉。粒纾澹睿簟。校欤幔睿睿椋睿纭。粒穑穑颍铮幔悖琛。妫铮?/p>
Distributed Information?。遥澹簦颍椋澹觯幔臁。椋睢。模睿幔恚椋恪。危澹簦鳎铮颍搿。牛睿觯椋颍铮睿恚澹睿簦螅郏剩荩。桑睿妫铮颍恚幔簦椋铮睢。樱悖椋澹睿悖澹。玻埃埃叮ǎ保罚叮海常常矗罚常常罚福?/p>
[8]Braga?。遥停?, Werner?。茫停蹋。停幔簦簦铮螅铩。停。希洌螅螅澹樱澹幔颍悖瑁骸。痢。停酰欤簦椋?/p>
agent?。樱螅簦澹怼。妫铮颉。茫铮恚穑铮睿澹睿簟。桑睿妫铮颍恚幔簦椋铮睢。樱澹幔颍悖琛。幔睿洹。遥澹簦颍椋澹觯幔欤郏剩荩裕瑁澹剩铮酰颍睿幔臁。铮妗。樱螅簦澹恚蟆。幔睿洹。樱铮妫簦鳎幔颍澹。玻埃埃叮ǎ罚梗海玻埃矗玻保担?/p>
[9]Smeaton AF,?。拢颍铮鳎睿濉。校。痢。眨螅幔纾濉。樱簦酰洌。铮妗。遥澹簦颍椋澹觯幔臁。停铮洌幔欤椋簦椋澹蟆。妫铮?/p>
Video?。樱瑁铮簟。遥澹簦颍椋澹觯幔欤郏剩荩。桑睿妫铮颍恚幔簦椋铮睢。校颍铮悖澹螅螅椋睿纭。幔睿洹。停幔睿幔纾澹恚澹睿簦玻埃埃叮ǎ矗玻海保常常埃保常矗矗?/p>
[10]Misu?。裕。耍幔鳎幔瑁幔颍帷。裕。模椋幔欤铮纾酰濉。樱簦颍幔簦澹纾。簦铩。茫欤幔颍椋妫。眨螅澹颍В蟆。眩酰澹颍椋澹蟆。妫铮?/p>
Document Retrieval?。樱螅簦澹怼。鳎椋簦琛。樱穑澹澹悖琛。桑睿簦澹颍妫幔悖澹郏剩荩。樱穑澹澹悖瑁茫铮恚恚酰睿椋悖幔簦椋铮?, 2006(48):1137-1150.
們?yōu)榇_定臨界部分提出了兩個統(tǒng)計量,Relevance?。樱悖铮颍澹ǎ遥樱┐砹伺c文件集的匹配度,Significance?。樱悖铮颍澹ǎ樱樱┯脕硖綔y影響檢索結(jié)果的因素。通過這些測量,系統(tǒng)在檢索前后可以分別處理語音識別的失誤。然后系統(tǒng)會產(chǎn)生問題來闡明用戶的查詢,減少檢索到的文件數(shù)量。該對話策略可以減少檢索的條目,特別是當(dāng)由于模糊輸入的查詢產(chǎn)生的許多匹配時,這種減少是必要的。系統(tǒng)的工作流程如圖3。 用戶的問題可以在知識庫(Knowledge?。拢幔螅澹。耍拢?、KB元數(shù)據(jù)和人類知識的結(jié)構(gòu)分析下被提煉,在獲得信息的基礎(chǔ)上,系統(tǒng)會選擇最佳的澄清問題反饋給用戶,查詢的語句會在用戶回復(fù)之后得到更新。實驗表明,這種方法比原始的語音識別技術(shù)更加有效地明確了用戶的查詢目的,提高了檢索的成功率。但是該技術(shù)只適合應(yīng)用在有限的域中,在開放域信息檢索如網(wǎng)絡(luò)檢索中并不適用。
7 結(jié) 語
國外學(xué)界和業(yè)界對信息檢索技術(shù)的研究已經(jīng)不僅僅局限在理論探討上,而是開展了大量的實驗和項目。學(xué)者們將信息檢索新技術(shù)應(yīng)用到實踐中,觀察它們的效果,并對項目或?qū)嶒灲Y(jié)果進行評估,可以使他們清楚認識到這些技術(shù)存在的不足之處。以上我們所提到的各種信息檢索新技術(shù)也都存在著優(yōu)勢和劣勢,只有不斷地摸索實驗,才能將
[作者簡介]
姜曉曦 女,1984年生,中國科學(xué)院文獻情報中心碩士生,發(fā)表論文2篇。
[收稿日期:2008-02-22]
?95?