卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

基于泛中文域名的網(wǎng)頁(yè)關(guān)鍵詞超鏈接實(shí)現(xiàn)與應(yīng)用

基于泛中文域名的網(wǎng)頁(yè)關(guān)鍵詞超鏈接功能探討與實(shí)現(xiàn)Introduction and Implementation of WebPage Content Keyword HyperLinks Based

基于泛中文域名的網(wǎng)頁(yè)關(guān)鍵詞超鏈接功能探討與實(shí)現(xiàn)

Introduction and Implementation of WebPage Content Keyword HyperLinks Based on Wildcard Domain Name

杜義華 (中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 管理信息服務(wù)中心 100864)

摘要: 本文介紹一種基于泛中文域名的關(guān)鍵詞超鏈接實(shí)現(xiàn)方法。主要是通過(guò)構(gòu)建完整的關(guān)鍵詞表、利用泛域名解析與虛擬中文域名的重定向技術(shù)和簡(jiǎn)單實(shí)用的添加鏈接算法,實(shí)現(xiàn)網(wǎng)頁(yè)全文中所有專(zhuān)業(yè)術(shù)語(yǔ)、通用詞均能點(diǎn)擊和按關(guān)鍵詞 域名方式直接訪問(wèn)到相應(yīng)站點(diǎn)、專(zhuān)題、網(wǎng)頁(yè)或搜索頁(yè)的充分互聯(lián),解決網(wǎng)頁(yè)中關(guān)鍵詞鏈接不全面、導(dǎo)向地址不準(zhǔn)確、不便記憶或無(wú)法及時(shí)更新、鏈接方式不理想等技術(shù)問(wèn)題。

關(guān)鍵詞:泛域名 中文虛擬域名 關(guān)鍵詞超鏈接

1 前言

超鏈接是互聯(lián)網(wǎng)的重要特點(diǎn),在頻道欄目、標(biāo)簽(tags)、相關(guān)文章或熱點(diǎn)推薦等線性結(jié)構(gòu)導(dǎo)航與檢索基礎(chǔ)上,網(wǎng)頁(yè)全文的關(guān)鍵詞超鏈接能讓各知識(shí)點(diǎn)多維網(wǎng)狀互聯(lián),門(mén)戶(hù)、行業(yè)或?qū)iT(mén)網(wǎng)站中全面完整的關(guān)鍵詞鏈接標(biāo)識(shí)有助于將信息立體式展示和為用戶(hù)提供快捷的百科全書(shū)式閱讀功能[1]。

網(wǎng)站中知識(shí)點(diǎn)和所涉及關(guān)鍵詞可能很多,但由于信息整理量大、信息組織不能一步到位、一些關(guān)鍵詞的導(dǎo)向頁(yè)面不確定、超鏈接添加算法不完備等,目前只有少數(shù)網(wǎng)站的部分網(wǎng)頁(yè)進(jìn)行有部分關(guān)鍵詞鏈接,如http://news.sina.com.cn/c/2006-03-24/22048522691s.shtml 中部分詞匯鏈至相關(guān)話題、人物專(zhuān)欄或搜索頁(yè)(http://www.iask.com/n?k=),且鏈接點(diǎn)不全面、鏈接地址不便調(diào)整,尚沒(méi)有網(wǎng)站系統(tǒng)能提供全面和專(zhuān)業(yè)的關(guān)鍵詞標(biāo)引服務(wù)。

泛域名技術(shù)能支持無(wú)限子域名,中文關(guān)鍵詞作子域名能更直觀簡(jiǎn)潔,多編碼關(guān)鍵詞參照表便于靈活擴(kuò)展。引入和結(jié)合泛中文域名解析思路,設(shè)計(jì)構(gòu)建全面關(guān)鍵詞表和簡(jiǎn)潔添加超鏈接算法,能有效解決目前關(guān)鍵詞鏈接中存在問(wèn)題。開(kāi)發(fā)實(shí)現(xiàn)通用網(wǎng)頁(yè)關(guān)鍵詞庫(kù)管理平臺(tái)和關(guān)鍵詞鏈接添加插件,能推廣適用于各類(lèi)網(wǎng)站網(wǎng)頁(yè)和信息發(fā)布平臺(tái)。

2 關(guān)鍵詞庫(kù)構(gòu)建

2.1 關(guān)鍵詞定義

頁(yè)面中關(guān)鍵詞為直接從文章中抽取的自然語(yǔ)言(自由詞) ,可能是規(guī)范術(shù)語(yǔ)、專(zhuān)用語(yǔ)或別名與簡(jiǎn)稱(chēng),具有一詞多義、多詞一義和詞義不清現(xiàn)象。關(guān)鍵詞表可參考但不限于《漢語(yǔ)主題詞表》、《醫(yī)學(xué)主題詞表》、《中醫(yī)藥主題詞表》等公認(rèn)主題詞,可能根據(jù)業(yè)務(wù)需要還有大量機(jī)構(gòu)、企業(yè)或人物名,所有詞條均能對(duì)應(yīng)到某主題或知識(shí)點(diǎn)。

以醫(yī)療保健類(lèi)為例,關(guān)鍵詞可包括中草藥名、中成藥名、方藥名、西藥名、疾病名、癥狀名、名醫(yī)名院、食物名、與生活保健相關(guān)的各要素、機(jī)構(gòu)組織、國(guó)家法規(guī)等。其中有別名現(xiàn)象如惡性腫瘤與癌癥、胃十二指腸潰瘍與消化性潰瘍,有簡(jiǎn)稱(chēng)現(xiàn)象如中華人民共和國(guó)衛(wèi)生部與衛(wèi)生部、乙型肝炎與乙肝,此外,為保證語(yǔ)義完整和劃詞準(zhǔn)確,一些慣用法詞句即使沒(méi)有對(duì)定專(zhuān)題介紹,也可采用上位主題詞作關(guān)鍵詞進(jìn)行保護(hù)和參照,如兒茶酚胺與兒茶酚胺類(lèi)、鼻炎與急性鼻炎、六味地黃與六味地黃丸、六味地黃口服液。

2.2 關(guān)鍵詞導(dǎo)向地址

各關(guān)鍵詞均對(duì)應(yīng)到一個(gè)知識(shí)點(diǎn),鏈接導(dǎo)向地址可以是一個(gè)網(wǎng)站地址、子站點(diǎn)或頻道欄

,

目專(zhuān)題首頁(yè)、具體頁(yè)面或相關(guān)搜索頁(yè)面。如世界衛(wèi)生組織可直接導(dǎo)向WHO 網(wǎng)站、民族醫(yī)藥可鏈接至民族醫(yī)藥頻道、禽流感可鏈接禽流感專(zhuān)題、非典防治方案可鏈接到方案的全文頁(yè)。

網(wǎng)站或課件中擁有大量知識(shí)信息素材,為加強(qiáng)對(duì)熱點(diǎn)或知識(shí)點(diǎn)的展示,在按常規(guī)頻道欄目或章節(jié)分類(lèi)同時(shí),可進(jìn)一步挖掘內(nèi)容間關(guān)系加工重組出大量專(zhuān)題。建設(shè)過(guò)程中,一些關(guān)鍵詞對(duì)應(yīng)知識(shí)點(diǎn)地址無(wú)法確定,或因信息或欄目專(zhuān)題的調(diào)整導(dǎo)致某些頁(yè)面地址(URL)變化,常存在鍵詞條設(shè)置不全、無(wú)法指向正確頁(yè)面或已添加鏈接網(wǎng)頁(yè)需要重新生成等問(wèn)題。只有關(guān)鍵詞本身是唯一的、確定的、不變的,因此我們采用泛域名的映射解析技術(shù),將每一個(gè)關(guān)鍵詞作為二級(jí)域名。

正如域名與IP 地址關(guān)系一樣,這種直接采用中文關(guān)鍵詞的域名方式,相當(dāng)于URL 助記符,便于記憶,同時(shí)能保證鏈接穩(wěn)定有效和導(dǎo)出設(shè)置靈活,當(dāng)URL 地址變化或指向需要調(diào)整時(shí),只需修改對(duì)照表的相應(yīng)記錄。

2.3 關(guān)鍵詞參照表

關(guān)鍵詞表用于生成關(guān)鍵詞詞典文件和泛域名解析的重定向。其中關(guān)鍵詞列具唯一索引,參照詞用于解決多詞一義現(xiàn)象。關(guān)鍵詞、Big5碼、IDN 編碼等列具有索引以提高解析速度。部分列數(shù)據(jù)冗余以避免嵌套查詢(xún)或反復(fù)編碼解碼操作。在關(guān)鍵詞表管理平臺(tái)中,實(shí)現(xiàn)對(duì)Big5碼、IDN 編碼列和若有參照詞時(shí)其鏈接地址列的自動(dòng)維護(hù)。關(guān)鍵詞表可同時(shí)具有優(yōu)先級(jí)別、廣告鏈接等屬性。

3 泛中文域名解析

3.1泛域名解析配置

泛域名解析是指將*.域名解析到同一IP ,用于讓域名支持無(wú)限子域名和防止用戶(hù)錯(cuò)誤輸入導(dǎo)致的無(wú)法正常訪問(wèn),目前常用于博客系統(tǒng),但子域名均為英文字母和數(shù)字,中文子域名由于編碼技術(shù)問(wèn)題易造成無(wú)法正常訪問(wèn),尚少見(jiàn)應(yīng)用。配置方法是在DNS 服務(wù)器的域名解析里面設(shè)置 *.a.com的A 記錄或者CName 記錄指向某IP 或者在域名轉(zhuǎn)發(fā)里面設(shè)置

,

*.a.com 轉(zhuǎn)發(fā)到 http://www.a.com ,同時(shí)在此IP 服務(wù)器上配置一個(gè)不指定主機(jī)頭的web 站點(diǎn)。

3.2 中文子域名編碼轉(zhuǎn)換

目前Internet DNS是7位ASCII 編碼環(huán)境,中文域名解析多以PUNYCODE [2]編碼進(jìn)行兼容轉(zhuǎn)換。中文編碼格式有國(guó)際標(biāo)準(zhǔn)(UTF-8)、國(guó)家標(biāo)準(zhǔn)(GB2312,GBK) 和工業(yè)事實(shí)標(biāo)準(zhǔn)(BIG5),經(jīng)過(guò)流覽器提交編碼后捕捉到的可能為國(guó)際化域名(IDN )或其它標(biāo)準(zhǔn)。如CNNIC 的中文域名用戶(hù)插件、TWNIC 的中文通、NETSCAPE7.1以上版本、Mozilla browser-1.4以上版本、Opera browser7.2以上版本等支持和轉(zhuǎn)換為IDN 標(biāo)準(zhǔn),Internet Explorer、3721網(wǎng)絡(luò)實(shí)名等仍采用UNICODE 編碼或UTF-8標(biāo)準(zhǔn)。

對(duì)于大量關(guān)鍵詞若采用相應(yīng)漢語(yǔ)拼音或英文作子域名容易重復(fù)且不便記憶,直接采用中文關(guān)鍵詞本身將很簡(jiǎn)潔直觀,如http://人參.100md.com 。采用web 服務(wù)器上關(guān)鍵詞多編碼對(duì)照表和子域名捕捉處理程序,泛中文域名的實(shí)現(xiàn)可以不涉及更改流覽者客戶(hù)端設(shè)置或DNS 服務(wù)器調(diào)整。針對(duì)當(dāng)前對(duì)不同流覽器或安裝不同插件的流覽器捕捉到的編碼方式差異,我們采用在關(guān)鍵詞表中預(yù)先設(shè)置好各類(lèi)編碼,即除簡(jiǎn)體中文外,同時(shí)對(duì)照有 BIG5碼(繁體中文) 、IDN 或punycode 編碼、漢語(yǔ)拼音、英文(拉丁名) 等字符串,用于兼顧多種標(biāo)準(zhǔn)和輔助解析,并實(shí)現(xiàn)對(duì)各類(lèi)子域名如http://當(dāng)歸.100md.com 、http:// 當(dāng)歸.100md.com 、http://danggui.100md.com的同時(shí)支持。

3.3 子域名重定向

DNS 泛域名解析將除明確定義(如www) 外的主機(jī)頭均指向到*對(duì)應(yīng)IP 的Web 站點(diǎn)。Web 站點(diǎn)中腳本程序(JSP、ASP 、ASPX 、PHP 等) 捕捉取到子域名字符串,掃描關(guān)鍵詞表,比較子域名字符串與表中各編碼,定位到關(guān)鍵詞;若有相應(yīng)鏈接地址,重定向到相應(yīng)地址(可使用框架頁(yè)) ,若沒(méi)有鏈接地址,通過(guò)參照詞找到和重定向到參照的鏈接地址;若沒(méi)有此關(guān)鍵詞,提示沒(méi)有開(kāi)通此域名,或者重定向到某搜索頁(yè)面。

4 超鏈接添加

4.1 實(shí)現(xiàn)思路

網(wǎng)頁(yè)中添加超鏈接實(shí)質(zhì)為字符串操作,如將鄧鐵濤 替換為鄧鐵濤,但并不是將所有關(guān)鍵詞直接替換為相應(yīng)HTML 代碼這么簡(jiǎn)單,完善算法要求只對(duì)正文部分加鏈接、不能處理其中不應(yīng)加鏈接字符、同一關(guān)鍵詞同一頁(yè)面的超鏈接不應(yīng)多個(gè)和盡量避免破壞詞句的斷章取義,我們實(shí)現(xiàn)的流程和解決要點(diǎn)如下:

1) 、定位取出正文內(nèi)容。在制作和發(fā)布生成頁(yè)面時(shí)采用web 標(biāo)準(zhǔn)格式[3],將內(nèi)容(結(jié)構(gòu))與表達(dá)(樣式)分離,正文內(nèi)容用約定標(biāo)簽,網(wǎng)頁(yè)中其它文字如當(dāng)前位置、相關(guān)文章等在標(biāo)簽之外,以便處理時(shí)準(zhǔn)確定位。

2) 、保護(hù)一些文字和HTML 代碼。對(duì)于各類(lèi)特殊用途的文字或字符,如HTML 代碼、已存在的鏈接文字、圖片的alt 文字、各DOM 對(duì)象的title 文字等進(jìn)行保護(hù)處理,方法是按規(guī)則找到所有需保護(hù)字符存入數(shù)組后替換為識(shí)別用編號(hào)。

3) 、依次掃描關(guān)鍵詞庫(kù)。在構(gòu)建完整主題詞庫(kù)表和明確泛域名導(dǎo)出鏈接思路基礎(chǔ)上,詞庫(kù)的詞條采用按字符長(zhǎng)度和優(yōu)先級(jí)別排序,避開(kāi)語(yǔ)義分析和斷詞處理的困難。

4) 、對(duì)各關(guān)鍵詞只對(duì)在正文中第一次出現(xiàn)者增加超鏈接,方法是當(dāng)某關(guān)鍵詞在文中首次出現(xiàn)時(shí)將其轉(zhuǎn)換為鏈接HTML 代碼記錄到中轉(zhuǎn)數(shù)組,同時(shí)將原正文換為關(guān)鍵詞前內(nèi)容 對(duì)應(yīng)數(shù)組的編號(hào)符 關(guān)鍵詞后內(nèi)容。當(dāng)掃描所有詞條后,再根據(jù)識(shí)別用編號(hào)從中轉(zhuǎn)數(shù)組中還原成添加鏈接后的正文內(nèi)容。

4.2添加方式

,

關(guān)鍵詞超鏈接可以在發(fā)布前手工添加、發(fā)布時(shí)自動(dòng)添加、發(fā)布后在線添加。手工添加即編輯人員編排信息時(shí)人為設(shè)定、發(fā)布時(shí)添加指集成于發(fā)布系統(tǒng)[4],在信息編審?fù)戤吷伸o態(tài)頁(yè)面后、更新到發(fā)布服務(wù)器前,由添加關(guān)鍵詞超鏈接程序(模塊) 自動(dòng)完成;在線添加為利用HTML 包含的js 腳本文件在用戶(hù)流覽網(wǎng)頁(yè)時(shí)對(duì)正文部分分析和實(shí)現(xiàn)。

手工添加方式低效,不在討論之列;發(fā)布時(shí)添加方式在服務(wù)器端完成,一次性添加,發(fā)布后對(duì)所有流覽者有效,訪問(wèn)速度快,有利于搜索引擎收錄,推薦使用,但注意當(dāng)關(guān)鍵詞表調(diào)整后需重新發(fā)布各頁(yè)面;在線添加方式在客戶(hù)端由js 腳本實(shí)現(xiàn),網(wǎng)頁(yè)正文本身沒(méi)超鏈接代碼,用戶(hù)可選擇是否啟用此功能,關(guān)鍵詞表的調(diào)整能實(shí)時(shí)生效,但詞條多時(shí)資源消耗較大,可適用于論壇或博客頁(yè)面,相對(duì)較少采用。

4.3 部分代碼(在線版javascript 腳本) :

//獲取處理對(duì)象和正文內(nèi)容

if (typeof(theInfoContent)!="undefined")

{var obj=document.getElementById("theInfoContent");}

else {var obj=document.body;}

var s = obj.innerHTML;

//詞條定義,按序排列,逗號(hào)分開(kāi)

var strwords="中華人民共和國(guó)衛(wèi)生部, 艾滋病防治條例, 高血壓病, 高血壓, 青春期, 衛(wèi)生部, 亞健康, 寵物, 三七, 田七, 食療";

var k=strwords.split(",");

//初始化中間數(shù)組

var mArray4Protect = new Array();

mArray4Protect[0]="";

//保護(hù)特別標(biāo)記為添加鏈接范圍外內(nèi)容, 略

Special_ContentProtect();

//保護(hù)文中已有鏈接部分

Comm_ContentProtect("");

//保護(hù)各類(lèi)HTML 代碼部分

Comm_ContentProtect("<", ">");

//掃描詞條,對(duì)首次出現(xiàn)的關(guān)鍵詞按加鏈接后代碼保護(hù)

,

if (iPosition == -1) {return ""}

var iNext = mArray4Protect.length ;

mArray4Protect[iNext] = '' strWord '';

var strtemp ="_" iNext.toString() "|"

s = s.substr(0,iPosition) strtemp s.substring(iPosition strWord.length,s.length)

}

//掃描中間數(shù)組將各標(biāo)識(shí)號(hào)還原

function RestoreFromProtectedArray(){

for (var iarray = mArray4Protect.length; iarray >=0 ; iarray--) {

s = s.replace("_" iarray.toString() "|",mArray4Protect[iarray])

}}

//將所有*與*間字符均保護(hù)

function Comm_ContentProtect(strStart, strEnd){

var itimes=0; //防死循環(huán)

while ((s.indexOf(strStart) !=-1) && (s.indexOf(strEnd) !=-1) && (itimes<5000)) { var strtemp=s.substring(s.indexOf(strStart),s.indexOf(strEnd) strEnd.length);

itimes ;

Add2ProtectedArray(strtemp);

}}

5 結(jié)束語(yǔ)

網(wǎng)頁(yè)全文關(guān)鍵詞超鏈接能充分發(fā)揮互聯(lián)網(wǎng)鏈接優(yōu)勢(shì),適用于各類(lèi)網(wǎng)站。結(jié)合大量專(zhuān)題建設(shè),作者嘗試性提出和實(shí)現(xiàn)基于泛域名解析方式的超鏈接標(biāo)識(shí)方法,并以醫(yī)療保鍵行業(yè)為例,整理專(zhuān)用或通用詞條兩萬(wàn)多,在百拇醫(yī)藥網(wǎng)各頁(yè)面(如http://www.100md.com/html/Dir/2003/09/18/96/613.htm)應(yīng)用,半年來(lái),網(wǎng)頁(yè)支持各類(lèi)流覽器和插件,信息組建中調(diào)整擴(kuò)展方便,信息互聯(lián)效果較好。

參考資料:

1) 桑新民,當(dāng)代信息技術(shù)在傳統(tǒng)文化-教育基礎(chǔ)中引發(fā)的革命,教育研究,1997.5. P17

2) Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA) ,

3) 網(wǎng)頁(yè)設(shè)計(jì)師:web標(biāo)準(zhǔn)教程及推廣, http://www.w3cn.org/

4) 杜義華, 張亞,網(wǎng)站信息管理發(fā)布系統(tǒng)設(shè)計(jì)與應(yīng)用,計(jì)算機(jī)系統(tǒng)應(yīng)用,2005.1,P7 附:作者聯(lián)系方式

杜義華, 男,1975出生,高級(jí)工程師,主要研究方向?yàn)閣eb 數(shù)據(jù)庫(kù)開(kāi)發(fā)、互聯(lián)網(wǎng)信息利用。 聯(lián)系電話:010-68597804 13671300224 傳真:68597102

通迅地址:北京西城區(qū)三里河路52號(hào) 中科院網(wǎng)絡(luò)信息中心OA 室 100864

E-mail : yhdu@cashq.ac.cn yhdu1975@126.com

標(biāo)簽: