卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

基于網(wǎng)站鏈接分析的_211工程_高校排名實(shí)證研究

情報(bào)分析與研究情報(bào)分析與研究基于網(wǎng)站鏈接分析的“211工程”高校排名實(shí)證研究王建冬 孫慧明(北京大學(xué)信息管理系 北京100871)【摘要】闡述基于網(wǎng)站鏈接分析的高校評(píng)價(jià)研究中存在的兩點(diǎn)不足, 即鏈接同

情報(bào)分析與研究

情報(bào)分析與研究

基于網(wǎng)站鏈接分析的“211工程”高校排名實(shí)證研究

王建冬 孫慧明

(北京大學(xué)信息管理系 北京100871)

【摘要】闡述基于網(wǎng)站鏈接分析的高校評(píng)價(jià)研究中存在的兩點(diǎn)不足, 即鏈接同等重要假設(shè)和數(shù)據(jù)不可靠性。然后設(shè)計(jì)一種可根據(jù)不同網(wǎng)站類型有側(cè)重抓取的廣度優(yōu)先爬蟲(chóng)算法, 抓取“211工程”高校網(wǎng)站作為研究樣本?;谒脭?shù)據(jù)構(gòu)成的社會(huì)網(wǎng)絡(luò), 對(duì)社會(huì)網(wǎng)絡(luò)分析中節(jié)點(diǎn)重要性測(cè)度的3種指標(biāo)的排名效果進(jìn)行實(shí)驗(yàn), 發(fā)現(xiàn)鄰近度聲望指標(biāo)最優(yōu)。并進(jìn)一步引入PageRank 思想, 提出一種對(duì)鄰近度聲望指標(biāo)進(jìn)行改進(jìn)的新指標(biāo)UnivRank 。實(shí)驗(yàn)結(jié)果表明, 新指標(biāo)的效果顯著優(yōu)于其他指標(biāo)。

【關(guān)鍵詞】網(wǎng)站鏈接分析 大學(xué)評(píng)價(jià) 社會(huì)網(wǎng)絡(luò)分析(S NA )   【分類號(hào)】G350

An E mpi r i cal Study n g ”Un i versiti es Based on W ebsites W ang J iandong  Sun Hui m ing

(Depart ment of Infor mati on Management, Peking University, Beijing 100871, China )

【Abstract 】The paper points out that there are t w o defects in the current study on university evaluation based on websites hyperlinks analysis, the first lies in the hypothesis that all links are of equal i mportance and the second is the fact that the data are unreliable . Then the authors design an FBS crawling algorithm, which can crawl different types of websites t o dif 2ferent extent, and construct and initiate a quantitative study on the hyperlink community of universities of “211Project ”. Based on the data, the authors design an experi m ent in order t o test the three S NA indexes which can measure the signifi 2cance of notes in the net w ork . The results show that the p r oxi m ity p restige index perfor m s better than the other t w o inde 2xes . Combining the p r oxi m ity p restige index with PageRank arithmetic, the authors then design a new index, which is called “UnivRank ”in short . The final results show that the new index perfor m s significantly better than the other ones .

【Keywords 】W ebsites hyperlinks analysis  University evaluation  S NA  PageRank  UnivRank

  基于網(wǎng)站鏈接分析的大學(xué)評(píng)價(jià)是網(wǎng)絡(luò)計(jì)量學(xué)的研究熱點(diǎn), 本文回顧了學(xué)術(shù)界基于網(wǎng)站鏈接分析的大學(xué)評(píng)價(jià)的研究成果, 指出其中值得改進(jìn)的地方。針對(duì)這些問(wèn)題, 本文提出一套解決方案, 并以我國(guó)“211工程”高校網(wǎng)站為樣本進(jìn)行實(shí)證分析。

  收稿日期:2008-03-19

  收修改稿日期:2008-04-10

 64 現(xiàn)代圖書(shū)情報(bào)技術(shù)

,

總第169期 2008年 第9期

1 網(wǎng)站鏈接分析與大學(xué)評(píng)價(jià)研究

1. 1 研究現(xiàn)狀

型站點(diǎn)進(jìn)行有側(cè)重的抓取。基于上述思想, 本文以我國(guó)“211工程”高校這個(gè)學(xué)術(shù)社群的超鏈關(guān)系網(wǎng)絡(luò)為考察對(duì)象, 設(shè)計(jì)了一個(gè)基于Java 程序的定向抓取算法, 對(duì)不同類型的站點(diǎn)網(wǎng)頁(yè)進(jìn)行不同深度的廣度優(yōu)先抓取和鏈接分析, 確保網(wǎng)站鏈接關(guān)系的可靠性和學(xué)術(shù)價(jià)值。

  近年來(lái), 隨著大學(xué)排名研究的興起, 基于網(wǎng)站鏈接分析進(jìn)行大學(xué)評(píng)價(jià)成為網(wǎng)絡(luò)計(jì)量學(xué)研究的一個(gè)新的方向, 并且出現(xiàn)了很多實(shí)證研究的案例。國(guó)外比較著名的有西班牙“因特網(wǎng)實(shí)驗(yàn)室”開(kāi)發(fā)的“基于網(wǎng)絡(luò)計(jì)量的

(W ebmetrics Ranking of World Universi 2世界大學(xué)排名”

ties ) , 它根據(jù)大學(xué)網(wǎng)站計(jì)量指標(biāo)對(duì)大學(xué)進(jìn)行排名, 采用

2 “211工程”高校網(wǎng)站超鏈關(guān)系網(wǎng)絡(luò)的

構(gòu)建

2. 1 學(xué)術(shù)類頁(yè)面的選擇和抓取

的指標(biāo)包括:規(guī)模、可見(jiàn)性、富文本文檔和谷歌學(xué)術(shù)等

[1-3]

  通過(guò)對(duì)實(shí)際網(wǎng)頁(yè)的調(diào)研, 筆者發(fā)現(xiàn)中國(guó)高校網(wǎng)站內(nèi)一般包含較多比例的非學(xué)術(shù)性質(zhì)的網(wǎng)頁(yè), 這些網(wǎng)頁(yè)所產(chǎn)生的超鏈接學(xué)術(shù)意義并不強(qiáng), 因此需要對(duì)高校內(nèi)部站點(diǎn)進(jìn)行分類, 并根據(jù)學(xué)術(shù)性強(qiáng)弱分別賦予不同權(quán)重。由此, 4類:

  (1) 學(xué)術(shù)類:實(shí)驗(yàn)室、研究所等,   () :后勤部) 娛樂(lè)類:主要包括BBS 、校內(nèi)娛樂(lè)站點(diǎn)、學(xué)生門戶等。

  (4) 新聞?lì)? 主要包括學(xué)校的新聞宣傳部門的新聞門戶網(wǎng)站。

  以上4類網(wǎng)頁(yè)中, 學(xué)術(shù)價(jià)值最強(qiáng)的顯然是第一類, 應(yīng)予以重點(diǎn)抓取, 其次是行政類和新聞?lì)愓军c(diǎn), 最后是娛樂(lè)類站點(diǎn)。

  關(guān)于對(duì)不同類型站點(diǎn)學(xué)術(shù)性權(quán)重的設(shè)置, 本文并未采取傳統(tǒng)的對(duì)不同網(wǎng)頁(yè)鏈接賦予不同權(quán)值的做法, 而是采取了對(duì)不同類型的站點(diǎn)抓取不同深度網(wǎng)頁(yè)策略, 這種做法主要基于兩點(diǎn)考慮:

  (1) 一般而言, 娛樂(lè)性站點(diǎn)的超鏈接數(shù)顯著多于學(xué)術(shù)性站點(diǎn), 因此, 如果將所有鏈接全部抓取回來(lái), 會(huì)使學(xué)術(shù)性網(wǎng)頁(yè)所占比例大大降低, 從而影響最終結(jié)果的信度;

  (2) 采取上述策略可以有效減少抓取網(wǎng)頁(yè)的數(shù)量, 從而大大提高程序的運(yùn)行效率①。

  根據(jù)上述分析, 本文設(shè)定學(xué)術(shù)類站點(diǎn)抓取層數(shù)為

5, 行政類和新聞?lì)愓军c(diǎn)抓取層數(shù)為3, 娛樂(lè)類站點(diǎn)抓

。國(guó)內(nèi)邱均平、段宇峰等學(xué)者通過(guò)實(shí)驗(yàn)初步探

[4]

索了鏈接分析在大學(xué)評(píng)價(jià)中的應(yīng)用, 以及中、美大學(xué)網(wǎng)站鏈接特征的比較

。該研究采用的主要統(tǒng)計(jì)指標(biāo)數(shù)

據(jù)包括:各樣本所屬網(wǎng)站的入鏈數(shù)、W eb -I F 值、網(wǎng)站字節(jié)數(shù)、總文件數(shù)、頁(yè)面文件數(shù)以及總鏈接數(shù)、自鏈數(shù)、出鏈數(shù)、鏈接密度和頁(yè)面平均鏈接數(shù)等。

1. 2 網(wǎng)站鏈接分析的一些值得改進(jìn)之處

  (1) 鏈接具有同等重要性假設(shè)

  目前, 分析理論演化而來(lái), 這種局限性也依然存在。在Google 將引文分析的思想引入到PageR 2

ank 算法的時(shí)候, 并沒(méi)有將所有鏈接視為同等重要, 即

不僅是通過(guò)反向鏈接數(shù)的多少, 還要給推薦度較高頁(yè)面的反向鏈接以較高的評(píng)價(jià)。同時(shí), 對(duì)來(lái)自總鏈接數(shù)少的頁(yè)面的鏈接給予較高的評(píng)價(jià), 而來(lái)自總鏈接數(shù)多的頁(yè)面的鏈接給予較低的評(píng)價(jià)將在第3部分詳細(xì)論述?! ?2) 鏈接的可靠性與學(xué)術(shù)價(jià)值

  網(wǎng)站評(píng)價(jià)研究中對(duì)于網(wǎng)站入鏈的研究在理論、方法和技術(shù)上都還很粗糙, 所取得的成果也存在爭(zhēng)議。確定網(wǎng)站的入鏈數(shù)目前多依靠A ltaV ista 、A llthe W eb 、

Google 等搜索引擎, 但“每一位研究者都非常清楚, 以

[5]

?;诖? 本文嘗試

將PageRank 思想融入網(wǎng)站鏈接分析算法中, 具體實(shí)現(xiàn)

這種方法得到的結(jié)果甚至不能作為近似值, 只能作為參考”。同時(shí), 由于高校內(nèi)部大量非學(xué)術(shù)性網(wǎng)頁(yè)對(duì)于標(biāo)引高校的學(xué)術(shù)水平并無(wú)幫助, 因此, 需要針對(duì)不同類

[4]

取層數(shù)為1。

①據(jù)實(shí)驗(yàn)測(cè)算, 采取這一策略可少抓取一半左右的網(wǎng)頁(yè)。

65X I A NDA I T USHU Q I N G BAO J I SHU   

,

情報(bào)分析與研究

2. 2 網(wǎng)頁(yè)抓取和超鏈關(guān)系分析算法

  本文采用Java

語(yǔ)言編寫(xiě)網(wǎng)頁(yè)抓取和超鏈關(guān)系分析程序, 其中網(wǎng)頁(yè)超鏈接提取采用Java 開(kāi)源項(xiàng)目HT ML 2

Parser ①。本文算法的基本思想描述如下:

  Main 函數(shù)

  記初始種子URL 池為U ={U1,U2, …, Un}  For (對(duì)U 中的所有URL ) {

  調(diào)用s p ider; //參數(shù)為地址url 、站點(diǎn)域名domain 、初始level =0}  Sp ider 函數(shù)

  level ; //遞歸層數(shù)加1

  ht m l O f U rl =get H t m l (url ) ; //抓取網(wǎng)頁(yè), 將結(jié)果賦給ht m l O f U rl   URL s OfPage =linkStract (url, ht m l O f U rl, domain ) ;   For (對(duì)URL s OfPage 中的所有URL ) {   if (URL 池中不包含該URL ) {    放入U(xiǎn)RL 池;

    if (level <5) {//5為本文網(wǎng)站遍歷的層數(shù)     s p ider (url, level, domain ) ; //遞歸調(diào)用s p ider}}}  linkStract 函數(shù)

  調(diào)用H t m lParser 分析頁(yè)面超鏈  For (對(duì)當(dāng)前頁(yè)面的所有URL ) {

   I f (URL 屬于其他“211工程”高校鏈接) {    當(dāng)前高校和URL 所屬高校關(guān)系    Else if (URL 屬于domain     將URL }  return linktext

圖1 “211工程”高校網(wǎng)站鏈接關(guān)系網(wǎng)絡(luò)  (1) 流行度(Popular ity)

  也就是節(jié)點(diǎn)的入度(I ndegree , 名望”的因此流行度只考慮節(jié)點(diǎn)的, 而忽略了網(wǎng)絡(luò)整體結(jié)構(gòu)的影響?! ?2) 影響域(I nput D oma i n)

  考慮所有和節(jié)點(diǎn)之間存在邊相連的節(jié)點(diǎn), 是指有向圖中所有和該節(jié)點(diǎn)之間存在路徑相連的節(jié)點(diǎn)占所有節(jié)點(diǎn)的百分比。影響域的缺陷在于對(duì)于一個(gè)連接度很高的有向圖, 各個(gè)節(jié)點(diǎn)的影響域數(shù)值相差不大, 這時(shí)影響域就失去了測(cè)度結(jié)點(diǎn)重要性的作用?! ?3) 鄰近度聲望指標(biāo)(Prox i m ity Prestige)   鄰近度聲望指標(biāo)主要考慮節(jié)點(diǎn)與其影響域中節(jié)點(diǎn)的接近程度。該指標(biāo)定義為影響域內(nèi)節(jié)點(diǎn)占所有其他節(jié)點(diǎn)的比例與影響域內(nèi)成員到達(dá)該節(jié)點(diǎn)的平均距離之比。比值越大, 聲望越高。

3. 2 三種指標(biāo)測(cè)量結(jié)果的評(píng)價(jià)

2. 3 “211工程  本文抓取“211工程”高校學(xué)術(shù)類頁(yè)面4305113個(gè), 包含超鏈接數(shù)962617227條?;谧ト∷脭?shù)據(jù), 構(gòu)建一個(gè)加權(quán)有向圖, 其節(jié)點(diǎn)是高校, 節(jié)點(diǎn)之間的邊是高校站點(diǎn)之間的超鏈接數(shù)關(guān)系, 邊的權(quán)值是高校站點(diǎn)之間超鏈接關(guān)系的數(shù)量。使用社會(huì)網(wǎng)絡(luò)分析軟件

Pajek ②對(duì)度數(shù)最大的

35所高校之間的社會(huì)網(wǎng)絡(luò)進(jìn)行

可視化分析, 得到如圖1所示的關(guān)系網(wǎng)絡(luò)。圖中節(jié)點(diǎn)的大小與高校站點(diǎn)入鏈數(shù)成正比, 節(jié)點(diǎn)越大, 表明高校站點(diǎn)入鏈度越高??梢钥闯? “211工程”高校之間的鏈接關(guān)系網(wǎng)絡(luò)密度很高, 并且一些重點(diǎn)院校的節(jié)點(diǎn), 如北大、清華、南大、浙大等具有較高的入鏈度, 這與這些高校的學(xué)術(shù)聲望較高的事實(shí)相吻合。

  由武漢大學(xué)邱均平教授領(lǐng)銜的中國(guó)科學(xué)評(píng)價(jià)研究

[7]

中心《中國(guó)高??蒲懈?jìng)爭(zhēng)力評(píng)價(jià)》(以下簡(jiǎn)稱邱版)

和武書(shū)連主持的中國(guó)管理科學(xué)院科學(xué)學(xué)研究所《中國(guó)

[8]

大學(xué)評(píng)價(jià)》(以下簡(jiǎn)稱武版) 是目前國(guó)內(nèi)比較權(quán)威的

3 SNA 節(jié)點(diǎn)重要性測(cè)度指標(biāo)評(píng)價(jià)實(shí)驗(yàn)

3. 1 社會(huì)網(wǎng)絡(luò)分析(SNA) 對(duì)節(jié)點(diǎn)重要性的測(cè)度

兩個(gè)大學(xué)評(píng)價(jià)體系。為了檢驗(yàn)“211工程”高校超鏈關(guān)

HT MLParser 是一個(gè)可用于HT ML 解析和URL 提取的開(kāi)源Pajek (Pr ogra m Analysis f or Large Net w ork ) 是一種基于W in 2

  文獻(xiàn)[6]給出了社會(huì)網(wǎng)絡(luò)分析中用來(lái)度量網(wǎng)絡(luò)中

(Prestige ) 的3種指標(biāo)。節(jié)點(diǎn)的“聲望”

Java 庫(kù)。

dows 的免費(fèi)社會(huì)網(wǎng)絡(luò)分析軟件。

 66 現(xiàn)代圖書(shū)情報(bào)技術(shù)

,

總第169期 2008年 第9期

系網(wǎng)絡(luò)中3種節(jié)點(diǎn)聲望測(cè)量方法的科學(xué)性, 本文將這二者視為當(dāng)前社會(huì)公認(rèn)的大學(xué)排行榜, 借助SPSS 軟件, 通過(guò)將采用以上3種方法得到的“211工程”高校的排行榜與上述兩個(gè)排行榜中“211工程”高校的相對(duì)排名作線性相關(guān)分析。相關(guān)度值越高, 則認(rèn)為指標(biāo)越可能反映實(shí)際情況。

  需要說(shuō)明的是, 由于網(wǎng)站鏈接情況只是大學(xué)綜合實(shí)力的一個(gè)方面, 所以本文的排名結(jié)果與傳統(tǒng)大學(xué)排名不可能高度相關(guān), 但是可以通過(guò)對(duì)幾種指標(biāo)的相關(guān)性的橫向比較來(lái)考察各項(xiàng)指標(biāo)相對(duì)的科學(xué)性。因此, 筆者認(rèn)為這種評(píng)價(jià)方法比采用人工評(píng)價(jià)等方法可信度更高, 也更易操作。

  在進(jìn)行分析之前, 首先將《中國(guó)高??蒲懈?jìng)爭(zhēng)力評(píng)價(jià)》中有關(guān)的大學(xué)排名換算成相對(duì)排名。對(duì)于一些學(xué)校, 雖然其排名在排行榜中前100名之內(nèi), 但由于該校不在“211工程”高校之內(nèi), 故將其刪除, 并將其后學(xué)校名次順延提前, 如湘潭大學(xué)等。對(duì)于那些大學(xué)排行榜不將其與一般高校并列的學(xué)校, 雖然其屬于“211程”高校, 亦將其刪除, , 防科學(xué)技術(shù)大學(xué)等。, ”高?! ?duì)選取的83211高校所形成的社會(huì)網(wǎng)絡(luò), 使用

Pajek 計(jì)算3種指標(biāo), 得到的結(jié)果如下。

  (2) 影響域測(cè)量方法

  使用影響域測(cè)量方法得到的前15所高校排名如表2所示(距離取2) 。

表2 使用影響域測(cè)量方法得到的前15名高校

排名123456789101112131415

學(xué)校清華大學(xué)

南京大學(xué)北京大學(xué)上海交通大學(xué)廈門大學(xué)武漢大學(xué)南開(kāi)大學(xué)華南理工大學(xué)北京師范大學(xué)西安交通大學(xué)中國(guó)農(nóng)業(yè)大學(xué)復(fù)旦大學(xué)北京航空航天大學(xué)北京化工大學(xué)天津大學(xué)

影響域0. 6355140190. 6074766360. 5981308410. 5794392520. 5794392520. 5700934580. 5607476640. 5607476640. 5420560750. 5420560750. 5420560750. 532710280. 532710280. 532710280. 523364486

, ”高校超鏈關(guān), 使用影響域方法反而大大3以上時(shí), 幾但是這并不能表示影響域方法在衡量節(jié)點(diǎn)重要性方面失去了意義, 因?yàn)閷?duì)于十分稀疏的有向圖而言, 影響域方法要比流行度方法更具有全局意義。

  (3) 鄰近度指標(biāo)測(cè)量方法

  使用鄰近度聲望指標(biāo)測(cè)量方法得到的前15所高校排名如表3所示:

表3 使用鄰近度聲望指標(biāo)測(cè)量方法得到的前15名高校

排名123456789101112131415

  (1) 流行度測(cè)量方法

  使用流行度測(cè)量方法得到的前15所高校排名如表1所示:

表1 使用流行度測(cè)量方法得到的前15名高校

排名123456789101112131415

學(xué)校清華大學(xué)

北京大學(xué)南京大學(xué)上海交通大學(xué)復(fù)旦大學(xué)廈門大學(xué)南開(kāi)大學(xué)武漢大學(xué)浙江大學(xué)華南理工大學(xué)北京師范大學(xué)西安交通大學(xué)中國(guó)農(nóng)業(yè)大學(xué)吉林大學(xué)中國(guó)人民大學(xué)

鄰近度聲望0. 5206620880. 4668338270. 4070719720. 3781603540. 3748701970. 3556953830. 3468542250. 3443138710. 3323455660. 3204272360. 3143925230. 3112797260. 3082279640. 3072937830. 300845572

學(xué)校清華大學(xué)北京大學(xué)南京大學(xué)復(fù)旦大學(xué)上海交通大學(xué)浙江大學(xué)廈門大學(xué)南開(kāi)大學(xué)武漢大學(xué)中國(guó)人民大學(xué)華東師范大學(xué)中國(guó)科學(xué)技術(shù)大學(xué)

吉林大學(xué)北京師范大學(xué)華南理工大學(xué)

流行度534633332926232321202019181615

  分別將上述3種排名與兩所傳統(tǒng)大學(xué)排行榜使用

SPSS 作線性相關(guān)分析, 結(jié)果如表4所示。

67X I A NDA I T USHU Q I N G BAO J I SHU   

,

情報(bào)分析與研究

表4 三種聲望度指標(biāo)與傳統(tǒng)大學(xué)排名的      Pears on 相關(guān)系數(shù)

武版

流行度影響域鄰近度

-. 031. 027. 198

以用節(jié)點(diǎn)的鄰近度聲望表示, 由此引入描述一個(gè)超鏈接權(quán)重的參數(shù), 記為W eight i =X i /Oi 。則節(jié)點(diǎn)p i 的重要性UnivRank i 可以使用以下公式計(jì)算:

UnivRank i =6N n ×W eight n

n =1I i

邱版. 025. 019. 167

4. 3 新指標(biāo)的算法實(shí)現(xiàn)

  從表4可以看出, 3種指標(biāo)中鄰近度聲望指標(biāo)與兩種大學(xué)排名擬合程度均較好。使用影響域和流行度指標(biāo)得到的排名結(jié)果與權(quán)威排名的相關(guān)性較差。由此, 筆者認(rèn)為在“211工程”高校網(wǎng)站超鏈關(guān)系社會(huì)網(wǎng)絡(luò)中, 使用鄰接度聲望作為大學(xué)評(píng)價(jià)指標(biāo)比較科學(xué)。下面將使用鄰近度指標(biāo)作為加權(quán)因子, 并引入PageR 2

ank 思想設(shè)計(jì)新的評(píng)價(jià)指標(biāo)。

  本文使用Java 語(yǔ)言實(shí)現(xiàn)了上述指標(biāo)的計(jì)算, 以下部分簡(jiǎn)要介紹該算法的基本思想。程序計(jì)算所需的各項(xiàng)數(shù)據(jù)均由其他程序生成, 由于篇幅所限, 不再一一介紹。本部分僅介紹使用“211工程”高校社會(huì)網(wǎng)絡(luò)中節(jié)點(diǎn)的入度、出度、鄰近度聲望指標(biāo)與網(wǎng)絡(luò)中有向邊的信息來(lái)計(jì)算4. 2節(jié)所討論的新指標(biāo)的算法思想。

  Hash Map I =new Hash Map (6000) ; //定義Hash Map 型變量I, 存

放節(jié)點(diǎn)入度, 格式形如“學(xué)校簡(jiǎn)稱→入度”

  Hash Map O =ne w Hash Map (6000) ; //定義Hash Map 型變量O,

存放節(jié)點(diǎn)出度, 格式同上

  Hash Map P ne w ) /Hash Map 型變量P,

, //項(xiàng)信息

=w Hash Map (6000) ; //定義Hash Map 型變量

存放節(jié)點(diǎn)新指標(biāo)值

4 PageRank 思想的引入與新指標(biāo)的設(shè)計(jì)

4. 1 PageRank 思想簡(jiǎn)述

  首先對(duì)PageRank 的基本思想做一個(gè)簡(jiǎn)單的介紹。從根本上來(lái)說(shuō), PageRank 是基于“從許多優(yōu)質(zhì)的網(wǎng)頁(yè)鏈接過(guò)來(lái)的網(wǎng)頁(yè), 必定還是優(yōu)質(zhì)網(wǎng)頁(yè)”來(lái)判定網(wǎng)頁(yè)的重要性。一個(gè)頁(yè)面的決于以下3點(diǎn):

  (1) 鏈接數(shù):;

  (2) :來(lái)自比較重要的頁(yè)面的鏈接被認(rèn)為具有更高的可信度;

  (3) 鏈接源頁(yè)面的鏈接數(shù):如果鏈接來(lái)源網(wǎng)頁(yè)包含的鏈接越多, 則該網(wǎng)頁(yè)所包含的指向其他網(wǎng)頁(yè)的鏈接的重要性越低。

4. 2 “超鏈權(quán)重”的引入與新指標(biāo)的設(shè)計(jì)

[9]

  BufferedReader in =new BufferedReader (ne w FileReader (" A1.

txt" ) ) ;

  //讀取存放鏈接關(guān)系的文件, 每行代表一條有向邊, 格式形如

“學(xué)校1-學(xué)校2:邊權(quán)值”

  String Ufr om =ne w String () ; //Ufrom 代表指出的學(xué)?! tring U t o =ne w String () ; //Ut o 代表指入的學(xué)?! nt num =0; //num代表權(quán)重

  while ((asdf2=in . readL ine () ) ! =null ) //按行讀取存放鏈接

關(guān)系的文件{

   if (weight . containsKey (U t o ) ==true ) {

    double te mp2=Double . parse Double (weight . get (U t o ) . t oS 2

tring () ) ;

  將PageRank 引申到本文所探討的“211工程”高校網(wǎng)站超鏈社區(qū)這個(gè)具體范疇:一個(gè)大學(xué)網(wǎng)站被鏈接的次數(shù)越多, 那么這個(gè)大學(xué)應(yīng)該越重要; 一個(gè)大學(xué)本身越重要, 那么這個(gè)大學(xué)所指向其他大學(xué)網(wǎng)站的鏈接越重要; 一所大學(xué)網(wǎng)站指向其他大學(xué)網(wǎng)站的鏈接越多, 那么這所大學(xué)的鏈接的重要性相應(yīng)越低。根據(jù)這一基本思想, 可以定義大學(xué)重要性指標(biāo)UnivRank, 其形式化描述為:

  在有向加權(quán)圖Q 中, 假設(shè)節(jié)點(diǎn)p i 的入度為I i , 和節(jié)點(diǎn)直接相連的I i 個(gè)節(jié)點(diǎn)表示為P i ={p1, p 2, …, p I }, 和

i

    double Pnum =Double . parse Double (P . get (Ufr om ) . t oString

() ) ;

    int Onum =I nteger . parse I nt (O. get (Ufr om ) . t oString () ) ;     te mp2=te mp2 num 3Pnum /Onum;//重新計(jì)算新指標(biāo), 并

將結(jié)果存入Hash Map 中

    weight . put (U t o, ne w Double (te mp2) ) ;    }   else{

    double Pnum =Double . parse Double (P . get (Ufr om ) . t oString

() ) ;

p i 之間的有向邊權(quán)值為{N1, N 2, …, N n }, 大學(xué)指向其

他網(wǎng)站的鏈接記為O i =n 6N n , 大學(xué)網(wǎng)站的“重要性”可=1

I i

    int Onum =I nteger . parse I nt (O. get (Ufr om ) . t oString () ) ;     double te mp2=num 3Pnum /Onum;//計(jì)算新指標(biāo), 并將結(jié)

 68 現(xiàn)代圖書(shū)情報(bào)技術(shù)

,

總第169期 2008年 第9期

果存入Hash Map 中

    weight . put (U t o, ne w Double (te mp2) ) ;    }  }

到傳統(tǒng)的網(wǎng)站鏈接分析中, 并以“211工程”高校為樣本, 通過(guò)與權(quán)威大學(xué)排行榜進(jìn)行擬合, 比較幾種指標(biāo)大學(xué)評(píng)價(jià)效果的優(yōu)劣。最后結(jié)論表明, 社會(huì)網(wǎng)絡(luò)分析中的鄰近度聲望指標(biāo)優(yōu)于傳統(tǒng)的入鏈度, 而引入超鏈接權(quán)重后的新指標(biāo)UnivRank 又優(yōu)于單純的鄰近度聲望指標(biāo)。因此, 筆者認(rèn)為在基于網(wǎng)站鏈接分析的大學(xué)排名中, 引入新指標(biāo)對(duì)于改進(jìn)大學(xué)排名的準(zhǔn)確性和客觀性具有一定意義。

4. 4 對(duì)新指標(biāo)效果的評(píng)價(jià)

  使用新指標(biāo)UnivRank 對(duì)“211工程”高校的重要性重新進(jìn)行測(cè)度所得到前15所高校排名如表5所示:

表5 UnivRank 最高的前15名高校

排名123456789101112131415

學(xué)校清華大學(xué)

北京大學(xué)南京大學(xué)復(fù)旦大學(xué)浙江大學(xué)武漢大學(xué)上海交通大學(xué)四川大學(xué)中國(guó)科技大同濟(jì)大學(xué)廈門大學(xué)北京外國(guó)語(yǔ)大學(xué)南開(kāi)大學(xué)華南理工大學(xué)哈爾濱工業(yè)大學(xué)

Univ Rank 2. 1974131095511. 9071131576750. 7942448102950. 5793248499500. 5090294332870. 4816395118720. 4574168221510. 3183487366590. 2787315576250. 2699321467060. 2602753806260. 2538117055240. 2444132245050. 2316108314930. 223742977552

參考文獻(xiàn):

[1]W ebmetrics Ranking of World Universities January ’07D istributi on

by Continent[EB /OL].(2006-07-20) . [2007-07-11].ht 2t p://www. webmetrics . info /Distributi . as p. [2]周思來(lái). [D ].北京:

北京大學(xué), 2007.

[3. ”看中國(guó)大學(xué)與世界及

J , 2006(1) :22-4]. 網(wǎng)絡(luò)鏈接分析與網(wǎng)站評(píng)價(jià)研究[M].北京:北京圖書(shū)

  將上述排名結(jié)果與兩榜SPSS 作線性相關(guān)分析, 表6 Pears on 相關(guān)系數(shù)

武版

UnivRank

. 213(3)

館出版社, 2005.

[5]Google 的秘密-PageRank 徹底解說(shuō)[EB /OL].[2007-07-11].htt p://www. kreng . com /pagerank. ht m .

[6]Wouter de Nooy, M rvar A, Batagelj V. Exp l orat ory Social Net w ork

Analysis with Pajek[M].Cambridge:Ca mbridge University Press, 2005.

[7]邱均平. 世界一流大學(xué)及學(xué)科競(jìng)爭(zhēng)力評(píng)價(jià)研究報(bào)告[M].北

邱版. 262(3)

  (注:3表示在結(jié)果5水平上顯著相關(guān))

  從表6可以看出, 根據(jù)新指標(biāo)UnivRank 得到的排名與權(quán)威大學(xué)排名擬合程度顯著高于流行度、影響域和鄰近度聲望指標(biāo), 并且其結(jié)果在5水平上顯著相關(guān)。因此, 筆者認(rèn)為新指標(biāo)在進(jìn)行大學(xué)評(píng)價(jià)方面的效果比傳統(tǒng)的3種方法要好。

京:科學(xué)出版社. 2007.

[8]《中國(guó)大學(xué)評(píng)價(jià)》課題組. 挑大學(xué)選專業(yè)-2007高考志愿填報(bào)

指南[M].北京:中國(guó)統(tǒng)計(jì)出版社. 2007.

[9]Google 在線文檔-Google 的受歡迎的秘密[EB /OL].(2005-07-20) . [2007-07-11].htt p://www. google . co . j p /intl/ja /why _use. ht m l .

5 結(jié) 語(yǔ)

  本文將PageRank 思想與社會(huì)網(wǎng)絡(luò)分析思想引入

(作者E -mail:zs . wagner@yahoo . com. cn )

69X I A NDA I T USHU Q I N G BAO J I SHU   

標(biāo)簽: