卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

基于統(tǒng)計學習的掛馬網(wǎng)頁實時檢測

第38卷 第1期計算機科學Vo l. 38No. 1基于統(tǒng)計學習的掛馬網(wǎng)頁實時檢測王 濤1 余順爭2(廣東工業(yè)大學自動化學院 廣州510006)(中山大學信息科學與技術學院電子與通信工程系 廣州510

第38卷 第1期計算機科學Vo l. 38No. 1基于統(tǒng)計學習的掛馬網(wǎng)頁實時檢測

王 濤1 余順爭2

(廣東工業(yè)大學自動化學院 廣州510006)

(中山大學信息科學與技術學院電子與通信工程系 廣州510006) 2

摘 要 近年來掛馬網(wǎng)頁對W eb 安全造成嚴重威脅, 客戶端的主要防御手段包括反病毒軟件與惡意站點黑名單。反病毒軟件采用特征碼匹配方法, 無法有效檢測經(jīng)過加密與混淆變形的網(wǎng)頁腳本代碼; 黑名單無法防御最新出現(xiàn)的惡意站點。提出一種新型的、與網(wǎng)頁內(nèi)容代碼無關的掛馬網(wǎng)頁實時檢測方法。該方法主要提取訪問網(wǎng)頁時H T T P 會話過程的各種統(tǒng)計特征, 利用決策樹機器學習方法構建掛馬網(wǎng)頁分類模型并用于在線實時檢測。實驗證明, 該方法能夠達到89. 7的掛馬網(wǎng)頁檢測率與0. 3的誤檢率。關鍵詞 掛馬網(wǎng)頁, H T T P 會話, 決策樹, 機器學習

1

Real time Detection of Malicious Web Pages Based on Statistical Learning

WA N G T ao 1 YU Shun zheng 2

(Faculty of Automation, Guangdong University of Technology, Guangzhou 510006, China) 1

(Depar tm ent of Electronics and Com munication Engineering, S un Yat S en Un iversity, Guangzhou 510006, China) 2

Abstract M alicious W eb pag es impo se incr easing thr eats on Web secur ity in r ecent years. Cur rently, there ar e mainly two client side pr otectio n appro aches including anti virus softw are packag es and blacklists o f malicious sites. Anti v ir us techniques commonly use sig natur e based appr oaches which might no t be able to efficiently identify malicious H T M L co des w ith encr yption and o bfuscation. F urthermo re, blacklisting t echniques are difficult to keep up to date. T his paper pr esented a no vel classification method for real time detecting malicious W eb pag es w hich is independent w ith the co n tents o f W eb pag es. O ur approach character izes malicious Web pag es using H T T P sessio n infor mation. W ith representa t ive statistical features and decision tree alg or ithm in machine lear ning , w e built an effective classificat ion model for o n line real time det ecting malicious W eb pages. Ex per iment results demo nstr ate that w e are able to successfully detect 89. 7of the malicious W eb pag es w ith a low false po sitiv e rate of 0. 3.Keywords M alicio us Web pages, H T T P session, Decisio n t ree, M achine lear ning

過推送模式把惡意程序傳播到漏洞主機, 但此方式不能穿越

N A T 以及網(wǎng)絡邊界防火墻。網(wǎng)頁掛馬攻擊采用取回模式的感染方式, 在用戶瀏覽被俘獲網(wǎng)站時自動將惡意程序植入到用戶系統(tǒng), 整個過程在后臺進行并且用戶無法察覺。因此, 一旦攻擊者俘獲具有較大訪問量的正常網(wǎng)站并用于實施掛馬攻擊, 將會造成大面積感染。圖1是一個典型的網(wǎng)頁掛馬攻擊交互過程。其中, 惡意程序分發(fā)站點(malwar e dist ribution sit e) 是提供惡意木馬病毒下載的站點。通常, 攻擊者為逃避跟蹤監(jiān)測, 會利用多次重定向鏈接將W eb 用戶引導至惡意程序分發(fā)站點, 自動下載惡意程序到本地并執(zhí)行。

現(xiàn)階段檢測掛馬網(wǎng)頁的主要方法包括網(wǎng)頁惡意代碼特征匹配與基于高交互虛擬蜜罐系統(tǒng)的動態(tài)行為監(jiān)測。網(wǎng)頁惡意代碼特征匹配[3, 4]是將惡意腳本代碼視為腳本病毒, 通過檢查腳本代碼是否與已知特征碼匹配進行判定。此方法具有固有缺陷:需要將加密腳本解釋成為明文腳本再來檢測, 但目前正常網(wǎng)頁為保護知識產(chǎn)權也普遍使用加密技術; 瀏覽器插件

1 引言

豐富的Web 服務在為信息共享帶來便利的同時, 也成為攻擊者入侵用戶系統(tǒng)的主要平臺。掛馬網(wǎng)頁指被攻擊者植入了惡意H T M L 腳本代碼的網(wǎng)頁, 主要利用瀏覽器與Web 應用程序漏洞把各種惡意程序傳播到用戶系統(tǒng)。一旦用戶瀏覽掛馬網(wǎng)頁, 瀏覽器就會加載運行惡意腳本代碼并自動下載執(zhí)行惡意程序。通過安裝的惡意程序, 攻擊者可以控制用戶主機, 盜取用戶的隱私信息, 幫助某些流氓廠商提高安裝量或點擊率, 對某個網(wǎng)站服務器發(fā)動DDo S 攻擊等等。據(jù)瑞星公司2009年抽樣統(tǒng)計[1]顯示, 每天約有30的網(wǎng)民上網(wǎng)時會遇到掛馬網(wǎng)站。

攻擊者利用掛馬網(wǎng)頁傳播惡意程序的行為稱為網(wǎng)頁掛馬攻擊。目前, 網(wǎng)頁掛馬攻擊已取代傳統(tǒng)的掃描攻擊方式, 并成為傳播病毒木馬的主要手段[2]。病毒蠕蟲主要通過大量掃描發(fā)現(xiàn)有系統(tǒng)漏洞的主機(如某個開放的網(wǎng)絡服務端口) , 并通

到稿日期:2010 02 05 返修日期:2010 05 07 本文受國家高技術研究發(fā)展計劃(863計劃) 專題課題(2007AA01Z449) , 國家自然科學基金 廣東聯(lián)合基金重點項目(U0735002) , 國家自然科學基金面上項目(60970146) , 教育部博士點專項基金(20090171120001) 資助。

王 濤(1983-) , 男, 博士生, 主要研究方向為計算機網(wǎng)絡安全, E mail:wangtaosea@msn. com; 余順爭(1958-) , 男, 教授, 博士生導師, 主要研究方向為網(wǎng)絡安全、網(wǎng)絡行為分析、網(wǎng)絡測量等。

, ,

站的域名做統(tǒng)計, 將常被引用的外部域名看作是可信的網(wǎng)站并列入白名單, 白名單之外的網(wǎng)站稱為可疑網(wǎng)站。經(jīng)過統(tǒng)計, 少部分外部域名被頻繁引用, 如w ww. g oog le analytics. com 在本文采集的數(shù)據(jù)中被約6萬個網(wǎng)頁引用。同時, 惡意程序分發(fā)站點一般都是由黑客直接管理并不對外提供正常的Web 服務, 因此不會在白名單內(nèi)。即使攻擊者利用白名單中的正常網(wǎng)站作為中間媒介站點來實現(xiàn)掛馬, 但用戶最終也需要被連接到惡意程序分發(fā)服務器才能下載惡意程序。根據(jù)對掛馬網(wǎng)頁會話過程的觀測可以發(fā)現(xiàn), 多數(shù)包含不止一個可疑外部域名。圖5是各個網(wǎng)頁會話中可疑外部域名數(shù)量的統(tǒng)計。對正常網(wǎng)頁集(見圖5(a) ) , 約76. 8的網(wǎng)頁不會引用可疑的外部域; 對掛馬網(wǎng)頁集(見圖5(b) ) , 網(wǎng)頁通常引用2~5個可疑的外部域名, 甚至更多。在實際應用中, 使用動態(tài)白名單, 實時增添一些知名度高且可信的域名, 由此篩選出一些可疑的域名。所以, 可以把網(wǎng)頁H T T P 會話過程中引用外部可

疑域名的數(shù)量作為檢測掛馬網(wǎng)頁的一個特征。

我們將網(wǎng)頁會話中缺少這3個信息域的請求數(shù)量作為特征。數(shù)據(jù)集中約55. 3的掛馬網(wǎng)頁會話包含此類具有不完整頭部信息域的請求, 而只有1. 24的正常網(wǎng)頁會話出現(xiàn)過此類

請求。

圖7 不完整頭部信息域的請求實例

3. 5 各種常見類型文件的請求數(shù)量

我們將在網(wǎng)頁會話過程中到可疑外部域(白名單外) 的各

種常見類型文件的請求數(shù)量作為特征值。圖8是html, js 兩種類型文件的請求數(shù)量的分布情況:約94. 3的正常網(wǎng)頁沒有引用可疑外部域的html 文件, 而約96的掛馬網(wǎng)頁引用多于2個的html 文件; 約52. 2的正常網(wǎng)頁沒有引用可疑外部域的js 文件, 而掛馬網(wǎng)頁中只有20。同時, 正常頁面所引用可疑外部域的html, js 文件一般不多于3個。因此, 如果一個網(wǎng)頁會話過程中出現(xiàn)過多到可疑外部域的html, js 文件的請求,

則此網(wǎng)頁可能是掛馬網(wǎng)頁。

(a) Number o f suspicious ext ernal

do mains

(b) Number of suspic io us ex te rnal

doma i ns

圖5 網(wǎng)頁引用可疑外部域名的數(shù)量分布

3. 3 域名段數(shù)

基于分隔符 . ! , 可稱全域名w ww. sohu. com 的段數(shù)為3段, 二級域名sohu. com 為2段。圖6統(tǒng)計了兩類數(shù)據(jù)集引用的所有外部域名段數(shù):對正常網(wǎng)頁集(見圖6(a) ) , 網(wǎng)頁所引用的外部域名一般為三段或更多(多級子域名) , 只有約0. 2的二段外部域名; 對掛馬網(wǎng)頁集(見圖6(b) ) , 兩段的外部域名約占41. 9??梢? 正常網(wǎng)站一般使用多個子域名來區(qū)分不同的服務器并對外提供服務, 如ad. doubleclick. net, g. dou bleclick. net, 因此其域名段數(shù)基本都在3段以上; 而惡意站點一般直接使用注冊的二級域名對外提供服務, 如ccndk822. cn, ew rew r34. cn 。因此, 將網(wǎng)頁是否有引用過二段的外部域

名作為一個特征。

(a) Number of request ed ht ml fil es (b) Num ber of request ed j s files

圖8 不同類型文件的請求數(shù)量分布

3. 6 重定向層數(shù)

對于一個網(wǎng)頁會話, 利用各個請求包頭部域中Refer er 的信息對會話進行重組, 構建一個鏈接樹。此鏈接樹以用戶請求的原始頁面(landing W ebpag e) 作為根節(jié)點, 每個請求以其Referer 域內(nèi)的對象作為父節(jié)點。圖9是一個網(wǎng)頁H T T P 會話過程的重定向鏈接樹, 其中M , N 是不同的外部站點。由根節(jié)點開始, 最長的鏈接路徑(包含外部站點) 長度稱為頁面重定向鏈接層數(shù)(page r edir ection steps)

圖9

網(wǎng)頁會話的重定向鏈接樹

(a) N um ber o f seqments o f

ex ternal do mains

(b) Number of seqm ent s of

ex ternal domains

圖6 網(wǎng)頁所引用外部域名的段數(shù)分布

3. 4 不完整頭部信息域的請求數(shù)量

大部分正常的H T T P 請求頭默認情況下會有以下幾個信息域:A ccept, Accept L anguag e, Accept Encoding, U ser A g ent , Referer , H ost, Co nnectio n 。一些掛馬網(wǎng)頁會話過程中會出現(xiàn)缺少多個常見的頭部信息域的請求。圖7是訪問掛馬網(wǎng)頁后自動發(fā)送到惡意程序分發(fā)站點的請求頭部信息, 缺少Accept Lang uag e, Accept Encoding 與Referer 3個信息域。

圖10 網(wǎng)頁會話重定向鏈接層數(shù)分布

圖10統(tǒng)計比較了正常網(wǎng)頁集與掛馬網(wǎng)頁集中所有實例

的重定向鏈接層數(shù)。對正常網(wǎng)頁, 約16. 8的網(wǎng)頁不會引用外部對象, 約61. 6的網(wǎng)頁是直接引用外部對象, 只有約6. 6的網(wǎng)頁會話包含3次以上重定向鏈接; 對掛馬網(wǎng)頁, 約

,

87. 1的網(wǎng)頁會話包含3次以上重定向鏈接, 最終將用戶引導到惡意程序分發(fā)站點。所以, 由統(tǒng)計結果可知, 網(wǎng)頁編輯人員引用外部對象時, 基本上都會直接引用, 其對象的請求大多由初始頁面直接產(chǎn)生, 不會經(jīng)過多層的鏈接才訪問到遠程對象; 而攻擊者經(jīng)常利用多次重定向來躲避檢測。3. 7 典型的可疑特征

一些掛馬頁面H T T P 會話過程具有典型的可疑特征, 如所引用的外部域名采用了代碼混淆方法, 或U RL 中含有重定向地址, 或直接采用IP 地址, 或使用一些特殊的服務端口, 這在正常的網(wǎng)頁會話過程中很少出現(xiàn), 實例如圖11

所示。

N Mj ) ]

式中, 對于給定子集S j ,

I (N 1j , N 2j , ?, N Mj ) =-#p ij log 2(p ij )

i =1M

(2)

(3)

式中, p ij =N ij /|S j |表示S j 中的樣本屬于類w i 的概率; |S j |表示S j 中的樣本個數(shù)。因此在屬性A i 上分支獲得的信息增益表示為

Gain(A i ) =I (N 1, N 2, ?, N M ) -E(A i )

(4)

Gain(A i ) 指由于知道特征A i 的值而導致的平均信息量的減小, 即分類不確定性的降低。因此, 選擇信息增益最大的特征創(chuàng)建決策樹節(jié)點, 根據(jù)特征的不同取值創(chuàng)建各個分支。再對各分支的子集遞歸調用該方法, 建立決策樹節(jié)點的分支, 直到所有子集僅包含同一類別的數(shù)據(jù)為止。

對于非離散的特征, C4. 5決策樹算法采用離散化其取值

圖11 4種典型的可疑特征

3. 8 特征表

經(jīng)過匯總, 共提取特征24個, 如表2所列。

表2 特征集

Feature

N um ber o f suspicious ex ternal IPs

N um ber o f suspicious ex ternal do mains

Whether ext ernal dom ains w i t h 2seg ments exist

N um ber of request s w i t h 13co mmo n t ypes to suspicious ext ernal sites

N um ber o f pag e redirec t ion steps N um ber o f different Sev er headers

N um ber o f different U ser Agent hea ders N um ber o f requests wi t h inco mpl et e headers T y pical suspicious feat ures A ll

Co unt 111131111424

空間的策略, 將其轉化成為離散特征進行計算。C4. 5決策樹方法處理分類問題有以下優(yōu)勢:C4. 5決策樹方法在模型構建和樣本預測過程中都不依賴于樣本的分布, 因此該方法能夠有效避免樣本分布變化所帶來的影響, 具有良好的分類穩(wěn)定性; C4. 5決策樹處理分類問題具有更高的效率。

我們將掛馬網(wǎng)頁作為正例子(posit ive class) , 正常網(wǎng)頁作為負例子(neg ativ e class) , 并采用評價分類模型的4個主要指標:檢測率(T rue Po sitive R ate) , 即掛馬網(wǎng)頁被正確檢測出來的比率; 誤檢率(F alse Po sitiv e Rate) , 即正常網(wǎng)頁被誤檢為掛馬網(wǎng)頁的比率; 精確率(Pr ecision) , 即被判為正例子的集合中真實掛馬網(wǎng)頁的比率; 準確率(A ccuracy ) , 即被正確檢測出的樣本占訓練集所有樣本的比率。

4. 2 模型檢測性能

在訓練分類模型時, 采用十折交叉驗證來測試模型性能。訓練數(shù)據(jù)集被隨機地分為10份, 輪流將其中9份做訓練, 1份做測試, 10次結果的均值作為對算法性能的估計。模型的R OC 曲線如圖12所示。由于實際環(huán)境下正常網(wǎng)頁數(shù)量要遠遠大于掛馬網(wǎng)頁, 因此在保證一定檢測率的條件下, 模型誤檢率越低越好。C4. 5決策樹檢測模型達到了較高的檢測率(89. 7) 以及低誤檢率(0. 3) , 模型的精確率為85. 7, 準確率為99. 5

。

4 分類模型訓練

4. 1 C4. 5決策樹

本文采用C4. 5決策樹方法[10]訓練掛馬網(wǎng)頁分類模型。決策樹是用于分類和預測的一種樹結構, 是以實例為基礎的歸納學習算法。它著眼于從一組無次序、無規(guī)則的實例中推理出決策樹表示形式的分類規(guī)則。利用決策樹方法處理分類問題分為兩個步驟:第一步利用訓練集建立并精化一棵決策樹, 建立決策樹模型; 第二步利用生成完畢的決策樹對輸入樣本進行分類。對輸入的待測樣本, 從根節(jié)點依次測試待測樣本的特征值, 直到到達某個葉節(jié)點, 從而確定該待測樣本所在的類。

設訓練集S ={X 1, X 2, ?, X N }, 其中包含M 個不同的類w i (i =1, 2, ?, M ) 。設N i 是屬于類w i 的樣本的個數(shù)。由此可以得到訓練集S 對分類的平均信息量

I (N 1, N 1, ?, N M ) =-#p i lo g 2(p i )

i =1M

圖12 C4. 5分類模型ROC 曲線

表3列出了C4. 5決策樹模型中信息增益排名前五的特征。可見, 可疑外部域名的數(shù)量具有最大的特征信息增益, 根據(jù)此特征可以過濾出很多正常網(wǎng)頁, 其次是重定向鏈接層數(shù)。

為了衡量檢測模型的分類穩(wěn)定性, 我們改變訓練集中正常網(wǎng)頁樣本與掛馬網(wǎng)頁樣本的比例。表4是模型檢測性能隨樣本分布的變化情況??梢钥闯? 在訓練集樣本數(shù)量與分布不同的情況下, 分類模型的性能基本保持穩(wěn)定, 其準確率保持上升。另外, 隨著正常樣本數(shù)量的增加, 分類模型的檢測率有所降低, 這是因為新增的一些模糊樣本(與掛馬網(wǎng)頁特征相近) 影響了模型的分類規(guī)則, 但這類模糊樣本數(shù)量較小, 因此分類模型依然保持了較高的檢測率與較低的誤檢率。

(下轉第129頁)

(1)

式中, p i =N i /N 是樣本屬于類w i 的概率。設每個樣本可由包含d 個特征的特征向量(A 1, A 2, ?, A d ) 表示。對任一離散特征A i (1?i ?d) , 假設A i 存在k 個不同取值{a 1, a 2, ?, a j , ?, a k }, 那么根據(jù)A i 的取值, 可以將訓練集S 劃分為k 個子集S 1, S 2, ?, S k , 其中S j ={X |X S, S. A =a j }。如果選A i 為測試屬性, 那么這些子集表示從代表集合S 出發(fā)的所有樹枝。設N ij 表示S j 中類為w i 的樣本的個數(shù)。由特征A i 進一步劃分訓練集后, 訓練集S 對分類的平均信息量為

E(A i ) =#[(

j =1k

N N ? N ) I (N 1j , N 2j , ?,

N

,

言的事實標準。本文在X ACM L 基礎上, 通過引入時態(tài)約束來彌補XA CM L 在描述異構策略組合時不能有效描述時態(tài)約束的不足。XA CM L 在描述策略組合時, 沒有考慮策略之間的安全屬性, 也無法描述策略組合后的安全屬性, 如何在XACM L 中引入策略的安全等級將是下一步需要解決的問題。

[8]

tional W orks hop on Policies for Dis tributed Systems and Net w orks. W as hington DC, U SA:IEEE Com puter S ociety Press, 2003:111 119

W ain er J, Kumar A, Barthelmes s P. DW RBAC:A Formal Secu rity M odel of Delegation and Revocation in W orkflow System s [J]. Information S ystems , 2007, 22(3):365 384[9]

James B D, Bertino E, Latif U, et al. A Generaliz ed T emporal Role Bas ed Acces s Control M odel [J ]. IEEE Transaction on Know ledge an d Data Engin eering, 2005:4 22

[10]唐卓, 趙林, 李肯立, 等. 一種基于風險的多域互操作動態(tài)訪問控

制模型[J]. 計算機研究與發(fā)展, 2009, 43(6) :948 955

[11]Li Ninghu i, Wang Qihua, Qardaji W, et al. Access C on tr ol Policy

Combining:T heory M eets Practice[C]?Proceedings of the 14th ACM symposium on Acces s control models and technologies. Ju ne 2009

[12]Chen g chen, Rohatgi P, W agn er G M , et al. Fuzz y M ulti Level

Security:An Experimen t on Quan tified Ris k Adaptive Acces s Control[C]?IE EE Sympos ium on Security and Privacy. 2007:222 230

[13]許峰, 賴海光, 等. 面向服務的角色訪問控制技術研究[J]. 計算

機學報, 2005, 28(4) :686 693

[14]黃建, 卿斯?jié)h. 帶時間特性的角色訪問控制[J ]. 軟件學報, 2003,

14(11) :1944 1954

[15]Dew ri R, Poolsappasit N, Ray P, et al. Optim al S ecu rity Harde

nin g Us ing M ulti Objective Optimization on Attack T ree M odels of Netw or ks[C]?Proceedings of the 14th ACM Conference on Compu ter and Comm unications S ecur ity (CCS (07) . New York, US A:ACM Pr ess , 2007:204 213

參考文獻

[1][2]

鄧集波, 洪帆. 基于任務的訪問控制模型[J]. 軟件學報, 2003, 14(1) :76 82

Gong L, Qian X. Computational Is sues in Secure Interoperation [J ]. IE EE Transactions on S oftw are Engin eering, 1996, 22(1) :43 52[3]

Xacml T C. OASIS eXtensible Access C on tr ol M arkup Language (XACM L ) [DB/OL ]. http://ww w. oasis open. org/commit tees /xacml/[4]

H ada S, Kudo M. XM L acces s control language:Pr ovis ion al au thoriz ation for XM L d ocumen ts [DB/OL]. http://w w w. trl. ib m. com /projects /x ml /xacl /xacl s pec. h tm l [5]

Ashley P, H ada S, Kar joth G, et al. The en terpris e privacy au thoriz ation lan guage(E PAL ) [DB/OL ]. http://w w w. w 3. org/2003/p3p w s/pp/ib m3. html [6]

Ribeiro C, Z &l quete A, Fer reira P, et al. S PL :An access control langu age for security policies w ith complex con straints [C ]?NDSS (01:Netw ork and Distributed S ystem S ecu rity Sym po sium. 2001[7]

Bharadw aj V G, Baras J S. T ow ards automated n egotiation of acces s control policies [C ]?Proceedings of IE EE 4th Intern a

(上接第90頁)

表3 信息增益排名前五的特征

Rank

12345

F eature

Number of suspici o us ext ernal dom ai ns Number of pa ge redi rection st eps

Number o f requests w i t h i ncom plet e headers Whet her ex ternal dom ai ns with 2seg ments ex ist

Number of re quest ed ht ml fil e s

1248160663d53890. shtml [2]

Provos N, M cNamee D, M avrommatis P, et al. T he ghos t in th e br ow s er analysis of W eb based malw are[C]?Proceedings of th e First Work shop on H ot Topics in Un derstanding Botn ets. Cam bridge, M A, 2007[3]

H ou Yun g T sung, Ch ang Yimeng, C hen Ts uhan, et al. M alicious W eb content detection by machine learning [J]. Expert System s w ith Applications, 2010, 37(1) :55 60[4]

Accuracy

98?. 8?. 9?. 5

表4 不同樣本分布下C4. 5分類模型的性能

M ali cious Webpage percentag e TP

50?. 6

20All So urces

95. 7?. 2?. 7

FP 0. 60. 40. 30. 3

Precision 99. 4?. 4?. 2?. 7

S eifert C, Komis arczuk P, Welch I. Iden tification of M alicious W eb Pages w ith Static H euristics [C]?IEEE Australasian Tele com munication Netw orks and Applications Conference. Ade laide, 2008:91 96

[5]M oshch uk A, Bragin T, Deville D, et al. SpyProxy:Ex ecution b as ed Detection of M aliciou s Web C on tent [C]?Proc. of th e U SENIX Security Sympos ium. Boston, M A, Aug. 2007:27 42

結束語 當前檢測掛馬網(wǎng)頁的主要手段有網(wǎng)頁代碼特征

匹配與高交互虛擬蜜罐技術。前者難以對抗代碼加密與混淆變形技術, 后者資源消耗較大, 難以在客戶端直接部署。針對這些不足, 本文提出一種輕量級的、基于訪問網(wǎng)頁的HT T P 會話統(tǒng)計特征的掛馬網(wǎng)頁檢測方法, 它無需對網(wǎng)頁H T M L 代碼、數(shù)據(jù)載荷進行特征匹配?;诘途S特征與有監(jiān)督的C4. 5決策樹學習, 訓練了能有效檢測掛馬網(wǎng)頁的分類模型。實驗證明, 我們能達到89. 7的檢測率與0. 3的誤檢率。下一步工作是進一步發(fā)掘更多掛馬網(wǎng)頁的特征, 研究在線學習算法, 以適應不斷更新的掛馬網(wǎng)頁特征。

[6]Provos N, M avrommatis P, Rajab M A, et al. All Your iFR AM E s Point to Us [C]?Proc. of the USENIX S ecurity S ympo sium. San J ose, CA, J uly 2008:1 15

[7]Zhuge J ianw ei, Th orsten H, S on g Chengyu, et al. Studyin g M ali cious W eb sites an d the Underground Economy on the Ch ines e W eb[C]?Proceedings of 2008W or kshop on th e Econ omics of Information Security(W EIS (08) . Jun e 2008

[8][9]

Top 1, 000, 000S ites [EB/OL ]. http://ww w. alexa. com/top sites, S eptember 2009

Seifert C, Steenson R. Captu re honeypot client [EB/OL]. htt ps://w w w. client honeynet. org/capture. html, 2006

參考文獻

[1]

2009年上半年中國大陸地區(qū)互聯(lián)網(wǎng)安全報告[EB/OL]. See ht tp://it. rising. com. cn/new 2008/New s/New sInfo/2009 07 21/

[10]W itten I H , Frank E. Data M ining:Practical M achine L earning

T ools and Techn iqu es (2nd ed ) [M ]. San Francis co:Elsevier Inc. , 2005

標簽: