卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

基于泛中文域名的網(wǎng)頁關(guān)鍵詞超鏈接實現(xiàn)與應用

基于泛中文域名的網(wǎng)頁關(guān)鍵詞超鏈接功能探討與實現(xiàn)Introduction and Implementation of WebPage Content Keyword HyperLinks Based

基于泛中文域名的網(wǎng)頁關(guān)鍵詞超鏈接功能探討與實現(xiàn)

Introduction and Implementation of WebPage Content Keyword HyperLinks Based on Wildcard Domain Name

杜義華 (中國科學院計算機網(wǎng)絡信息中心 管理信息服務中心 100864)

摘要: 本文介紹一種基于泛中文域名的關(guān)鍵詞超鏈接實現(xiàn)方法。主要是通過構(gòu)建完整的關(guān)鍵詞表、利用泛域名解析與虛擬中文域名的重定向技術(shù)和簡單實用的添加鏈接算法,實現(xiàn)網(wǎng)頁全文中所有專業(yè)術(shù)語、通用詞均能點擊和按關(guān)鍵詞 域名方式直接訪問到相應站點、專題、網(wǎng)頁或搜索頁的充分互聯(lián),解決網(wǎng)頁中關(guān)鍵詞鏈接不全面、導向地址不準確、不便記憶或無法及時更新、鏈接方式不理想等技術(shù)問題。

關(guān)鍵詞:泛域名 中文虛擬域名 關(guān)鍵詞超鏈接

1 前言

超鏈接是互聯(lián)網(wǎng)的重要特點,在頻道欄目、標簽(tags)、相關(guān)文章或熱點推薦等線性結(jié)構(gòu)導航與檢索基礎上,網(wǎng)頁全文的關(guān)鍵詞超鏈接能讓各知識點多維網(wǎng)狀互聯(lián),門戶、行業(yè)或?qū)iT網(wǎng)站中全面完整的關(guān)鍵詞鏈接標識有助于將信息立體式展示和為用戶提供快捷的百科全書式閱讀功能[1]。

網(wǎng)站中知識點和所涉及關(guān)鍵詞可能很多,但由于信息整理量大、信息組織不能一步到位、一些關(guān)鍵詞的導向頁面不確定、超鏈接添加算法不完備等,目前只有少數(shù)網(wǎng)站的部分網(wǎng)頁進行有部分關(guān)鍵詞鏈接,如http://news.sina.com.cn/c/2006-03-24/22048522691s.shtml 中部分詞匯鏈至相關(guān)話題、人物專欄或搜索頁(http://www.iask.com/n?k=),且鏈接點不全面、鏈接地址不便調(diào)整,尚沒有網(wǎng)站系統(tǒng)能提供全面和專業(yè)的關(guān)鍵詞標引服務。

泛域名技術(shù)能支持無限子域名,中文關(guān)鍵詞作子域名能更直觀簡潔,多編碼關(guān)鍵詞參照表便于靈活擴展。引入和結(jié)合泛中文域名解析思路,設計構(gòu)建全面關(guān)鍵詞表和簡潔添加超鏈接算法,能有效解決目前關(guān)鍵詞鏈接中存在問題。開發(fā)實現(xiàn)通用網(wǎng)頁關(guān)鍵詞庫管理平臺和關(guān)鍵詞鏈接添加插件,能推廣適用于各類網(wǎng)站網(wǎng)頁和信息發(fā)布平臺。

2 關(guān)鍵詞庫構(gòu)建

2.1 關(guān)鍵詞定義

頁面中關(guān)鍵詞為直接從文章中抽取的自然語言(自由詞) ,可能是規(guī)范術(shù)語、專用語或別名與簡稱,具有一詞多義、多詞一義和詞義不清現(xiàn)象。關(guān)鍵詞表可參考但不限于《漢語主題詞表》、《醫(yī)學主題詞表》、《中醫(yī)藥主題詞表》等公認主題詞,可能根據(jù)業(yè)務需要還有大量機構(gòu)、企業(yè)或人物名,所有詞條均能對應到某主題或知識點。

以醫(yī)療保健類為例,關(guān)鍵詞可包括中草藥名、中成藥名、方藥名、西藥名、疾病名、癥狀名、名醫(yī)名院、食物名、與生活保健相關(guān)的各要素、機構(gòu)組織、國家法規(guī)等。其中有別名現(xiàn)象如惡性腫瘤與癌癥、胃十二指腸潰瘍與消化性潰瘍,有簡稱現(xiàn)象如中華人民共和國衛(wèi)生部與衛(wèi)生部、乙型肝炎與乙肝,此外,為保證語義完整和劃詞準確,一些慣用法詞句即使沒有對定專題介紹,也可采用上位主題詞作關(guān)鍵詞進行保護和參照,如兒茶酚胺與兒茶酚胺類、鼻炎與急性鼻炎、六味地黃與六味地黃丸、六味地黃口服液。

2.2 關(guān)鍵詞導向地址

各關(guān)鍵詞均對應到一個知識點,鏈接導向地址可以是一個網(wǎng)站地址、子站點或頻道欄

,

目專題首頁、具體頁面或相關(guān)搜索頁面。如世界衛(wèi)生組織可直接導向WHO 網(wǎng)站、民族醫(yī)藥可鏈接至民族醫(yī)藥頻道、禽流感可鏈接禽流感專題、非典防治方案可鏈接到方案的全文頁。

網(wǎng)站或課件中擁有大量知識信息素材,為加強對熱點或知識點的展示,在按常規(guī)頻道欄目或章節(jié)分類同時,可進一步挖掘內(nèi)容間關(guān)系加工重組出大量專題。建設過程中,一些關(guān)鍵詞對應知識點地址無法確定,或因信息或欄目專題的調(diào)整導致某些頁面地址(URL)變化,常存在鍵詞條設置不全、無法指向正確頁面或已添加鏈接網(wǎng)頁需要重新生成等問題。只有關(guān)鍵詞本身是唯一的、確定的、不變的,因此我們采用泛域名的映射解析技術(shù),將每一個關(guān)鍵詞作為二級域名。

正如域名與IP 地址關(guān)系一樣,這種直接采用中文關(guān)鍵詞的域名方式,相當于URL 助記符,便于記憶,同時能保證鏈接穩(wěn)定有效和導出設置靈活,當URL 地址變化或指向需要調(diào)整時,只需修改對照表的相應記錄。

2.3 關(guān)鍵詞參照表

關(guān)鍵詞表用于生成關(guān)鍵詞詞典文件和泛域名解析的重定向。其中關(guān)鍵詞列具唯一索引,參照詞用于解決多詞一義現(xiàn)象。關(guān)鍵詞、Big5碼、IDN 編碼等列具有索引以提高解析速度。部分列數(shù)據(jù)冗余以避免嵌套查詢或反復編碼解碼操作。在關(guān)鍵詞表管理平臺中,實現(xiàn)對Big5碼、IDN 編碼列和若有參照詞時其鏈接地址列的自動維護。關(guān)鍵詞表可同時具有優(yōu)先級別、廣告鏈接等屬性。

3 泛中文域名解析

3.1泛域名解析配置

泛域名解析是指將*.域名解析到同一IP ,用于讓域名支持無限子域名和防止用戶錯誤輸入導致的無法正常訪問,目前常用于博客系統(tǒng),但子域名均為英文字母和數(shù)字,中文子域名由于編碼技術(shù)問題易造成無法正常訪問,尚少見應用。配置方法是在DNS 服務器的域名解析里面設置 *.a.com的A 記錄或者CName 記錄指向某IP 或者在域名轉(zhuǎn)發(fā)里面設置

,

*.a.com 轉(zhuǎn)發(fā)到 http://www.a.com ,同時在此IP 服務器上配置一個不指定主機頭的web 站點。

3.2 中文子域名編碼轉(zhuǎn)換

目前Internet DNS是7位ASCII 編碼環(huán)境,中文域名解析多以PUNYCODE [2]編碼進行兼容轉(zhuǎn)換。中文編碼格式有國際標準(UTF-8)、國家標準(GB2312,GBK) 和工業(yè)事實標準(BIG5),經(jīng)過流覽器提交編碼后捕捉到的可能為國際化域名(IDN )或其它標準。如CNNIC 的中文域名用戶插件、TWNIC 的中文通、NETSCAPE7.1以上版本、Mozilla browser-1.4以上版本、Opera browser7.2以上版本等支持和轉(zhuǎn)換為IDN 標準,Internet Explorer、3721網(wǎng)絡實名等仍采用UNICODE 編碼或UTF-8標準。

對于大量關(guān)鍵詞若采用相應漢語拼音或英文作子域名容易重復且不便記憶,直接采用中文關(guān)鍵詞本身將很簡潔直觀,如http://人參.100md.com 。采用web 服務器上關(guān)鍵詞多編碼對照表和子域名捕捉處理程序,泛中文域名的實現(xiàn)可以不涉及更改流覽者客戶端設置或DNS 服務器調(diào)整。針對當前對不同流覽器或安裝不同插件的流覽器捕捉到的編碼方式差異,我們采用在關(guān)鍵詞表中預先設置好各類編碼,即除簡體中文外,同時對照有 BIG5碼(繁體中文) 、IDN 或punycode 編碼、漢語拼音、英文(拉丁名) 等字符串,用于兼顧多種標準和輔助解析,并實現(xiàn)對各類子域名如http://當歸.100md.com 、http:// 當歸.100md.com 、http://danggui.100md.com的同時支持。

3.3 子域名重定向

DNS 泛域名解析將除明確定義(如www) 外的主機頭均指向到*對應IP 的Web 站點。Web 站點中腳本程序(JSP、ASP 、ASPX 、PHP 等) 捕捉取到子域名字符串,掃描關(guān)鍵詞表,比較子域名字符串與表中各編碼,定位到關(guān)鍵詞;若有相應鏈接地址,重定向到相應地址(可使用框架頁) ,若沒有鏈接地址,通過參照詞找到和重定向到參照的鏈接地址;若沒有此關(guān)鍵詞,提示沒有開通此域名,或者重定向到某搜索頁面。

4 超鏈接添加

4.1 實現(xiàn)思路

網(wǎng)頁中添加超鏈接實質(zhì)為字符串操作,如將鄧鐵濤 替換為鄧鐵濤,但并不是將所有關(guān)鍵詞直接替換為相應HTML 代碼這么簡單,完善算法要求只對正文部分加鏈接、不能處理其中不應加鏈接字符、同一關(guān)鍵詞同一頁面的超鏈接不應多個和盡量避免破壞詞句的斷章取義,我們實現(xiàn)的流程和解決要點如下:

1) 、定位取出正文內(nèi)容。在制作和發(fā)布生成頁面時采用web 標準格式[3],將內(nèi)容(結(jié)構(gòu))與表達(樣式)分離,正文內(nèi)容用約定標簽,網(wǎng)頁中其它文字如當前位置、相關(guān)文章等在標簽之外,以便處理時準確定位。

2) 、保護一些文字和HTML 代碼。對于各類特殊用途的文字或字符,如HTML 代碼、已存在的鏈接文字、圖片的alt 文字、各DOM 對象的title 文字等進行保護處理,方法是按規(guī)則找到所有需保護字符存入數(shù)組后替換為識別用編號。

3) 、依次掃描關(guān)鍵詞庫。在構(gòu)建完整主題詞庫表和明確泛域名導出鏈接思路基礎上,詞庫的詞條采用按字符長度和優(yōu)先級別排序,避開語義分析和斷詞處理的困難。

4) 、對各關(guān)鍵詞只對在正文中第一次出現(xiàn)者增加超鏈接,方法是當某關(guān)鍵詞在文中首次出現(xiàn)時將其轉(zhuǎn)換為鏈接HTML 代碼記錄到中轉(zhuǎn)數(shù)組,同時將原正文換為關(guān)鍵詞前內(nèi)容 對應數(shù)組的編號符 關(guān)鍵詞后內(nèi)容。當掃描所有詞條后,再根據(jù)識別用編號從中轉(zhuǎn)數(shù)組中還原成添加鏈接后的正文內(nèi)容。

4.2添加方式

,

關(guān)鍵詞超鏈接可以在發(fā)布前手工添加、發(fā)布時自動添加、發(fā)布后在線添加。手工添加即編輯人員編排信息時人為設定、發(fā)布時添加指集成于發(fā)布系統(tǒng)[4],在信息編審完畢生成靜態(tài)頁面后、更新到發(fā)布服務器前,由添加關(guān)鍵詞超鏈接程序(模塊) 自動完成;在線添加為利用HTML 包含的js 腳本文件在用戶流覽網(wǎng)頁時對正文部分分析和實現(xiàn)。

手工添加方式低效,不在討論之列;發(fā)布時添加方式在服務器端完成,一次性添加,發(fā)布后對所有流覽者有效,訪問速度快,有利于搜索引擎收錄,推薦使用,但注意當關(guān)鍵詞表調(diào)整后需重新發(fā)布各頁面;在線添加方式在客戶端由js 腳本實現(xiàn),網(wǎng)頁正文本身沒超鏈接代碼,用戶可選擇是否啟用此功能,關(guān)鍵詞表的調(diào)整能實時生效,但詞條多時資源消耗較大,可適用于論壇或博客頁面,相對較少采用。

4.3 部分代碼(在線版javascript 腳本) :

//獲取處理對象和正文內(nèi)容

if (typeof(theInfoContent)!="undefined")

{var obj=document.getElementById("theInfoContent");}

else {var obj=document.body;}

var s = obj.innerHTML;

//詞條定義,按序排列,逗號分開

var strwords="中華人民共和國衛(wèi)生部, 艾滋病防治條例, 高血壓病, 高血壓, 青春期, 衛(wèi)生部, 亞健康, 寵物, 三七, 田七, 食療";

var k=strwords.split(",");

//初始化中間數(shù)組

var mArray4Protect = new Array();

mArray4Protect[0]="";

//保護特別標記為添加鏈接范圍外內(nèi)容, 略

Special_ContentProtect();

//保護文中已有鏈接部分

Comm_ContentProtect("");

//保護各類HTML 代碼部分

Comm_ContentProtect("<", ">");

//掃描詞條,對首次出現(xiàn)的關(guān)鍵詞按加鏈接后代碼保護

,

if (iPosition == -1) {return ""}

var iNext = mArray4Protect.length ;

mArray4Protect[iNext] = '' strWord '';

var strtemp ="_" iNext.toString() "|"

s = s.substr(0,iPosition) strtemp s.substring(iPosition strWord.length,s.length)

}

//掃描中間數(shù)組將各標識號還原

function RestoreFromProtectedArray(){

for (var iarray = mArray4Protect.length; iarray >=0 ; iarray--) {

s = s.replace("_" iarray.toString() "|",mArray4Protect[iarray])

}}

//將所有*與*間字符均保護

function Comm_ContentProtect(strStart, strEnd){

var itimes=0; //防死循環(huán)

while ((s.indexOf(strStart) !=-1) && (s.indexOf(strEnd) !=-1) && (itimes<5000)) { var strtemp=s.substring(s.indexOf(strStart),s.indexOf(strEnd) strEnd.length);

itimes ;

Add2ProtectedArray(strtemp);

}}

5 結(jié)束語

網(wǎng)頁全文關(guān)鍵詞超鏈接能充分發(fā)揮互聯(lián)網(wǎng)鏈接優(yōu)勢,適用于各類網(wǎng)站。結(jié)合大量專題建設,作者嘗試性提出和實現(xiàn)基于泛域名解析方式的超鏈接標識方法,并以醫(yī)療保鍵行業(yè)為例,整理專用或通用詞條兩萬多,在百拇醫(yī)藥網(wǎng)各頁面(如http://www.100md.com/html/Dir/2003/09/18/96/613.htm)應用,半年來,網(wǎng)頁支持各類流覽器和插件,信息組建中調(diào)整擴展方便,信息互聯(lián)效果較好。

參考資料:

1) 桑新民,當代信息技術(shù)在傳統(tǒng)文化-教育基礎中引發(fā)的革命,教育研究,1997.5. P17

2) Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA) ,

3) 網(wǎng)頁設計師:web標準教程及推廣, http://www.w3cn.org/

4) 杜義華, 張亞,網(wǎng)站信息管理發(fā)布系統(tǒng)設計與應用,計算機系統(tǒng)應用,2005.1,P7 附:作者聯(lián)系方式

杜義華, 男,1975出生,高級工程師,主要研究方向為web 數(shù)據(jù)庫開發(fā)、互聯(lián)網(wǎng)信息利用。 聯(lián)系電話:010-68597804 13671300224 傳真:68597102

通迅地址:北京西城區(qū)三里河路52號 中科院網(wǎng)絡信息中心OA 室 100864

E-mail : yhdu@cashq.ac.cn yhdu1975@126.com

標簽: