卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

DNS數(shù)據(jù)挖掘與搜索引擎技術(shù)相結(jié)合提升網(wǎng)絡(luò)安全

DNS數(shù)據(jù)挖掘與搜索引擎技術(shù)相結(jié)合提升網(wǎng)絡(luò)安全楊世標(biāo)  王晶晶 梅汝鵬 中國聯(lián)合網(wǎng)絡(luò)通信有限公司廣東省分公司針對目前基礎(chǔ)運(yùn)營商無法監(jiān)控日益增長的網(wǎng)絡(luò)安全問題,設(shè)計(jì)出DNS數(shù)據(jù)挖掘和搜索引擎技術(shù)相結(jié)合的

DNS數(shù)據(jù)挖掘與

搜索引擎技術(shù)相結(jié)合提升網(wǎng)絡(luò)安全楊世標(biāo)  王晶晶 梅汝鵬 中國聯(lián)合網(wǎng)絡(luò)通信有限公司廣東省分公司針對目前基礎(chǔ)運(yùn)營商無法監(jiān)控日益增長的網(wǎng)絡(luò)安全問題,設(shè)計(jì)出DNS數(shù)據(jù)挖掘和搜索引擎技術(shù)相結(jié)合的架構(gòu),查找存在安全隱患的網(wǎng)站和頁面,提升網(wǎng)絡(luò)完全,凈化網(wǎng)絡(luò)環(huán)境。在廣東聯(lián)通城域網(wǎng)實(shí)施后,在打擊域名備案及不良信息網(wǎng)站等方面取得良好效果。DNS 搜索 爬蟲

隨著網(wǎng)絡(luò)應(yīng)用的日益普及和復(fù)雜化,互聯(lián)網(wǎng)信息呈現(xiàn)爆炸式增長,已經(jīng)滲透到日常生活的方方面面,安全事件不斷出現(xiàn),信息手段日益翻新,網(wǎng)絡(luò)與信息安全越來越成為人們關(guān)注的重點(diǎn)。如何快速、準(zhǔn)確和全面地查找存在安全隱患的網(wǎng)站和頁面,對提高網(wǎng)絡(luò)安全級別、凈化網(wǎng)絡(luò)環(huán)境有著重要意義。

當(dāng)前針對網(wǎng)站的安全監(jiān)控主要是借助于第三方網(wǎng)關(guān)探針在硬件上實(shí)施部署,這種方式的不足之處在于以下4個方面。

⑴采用網(wǎng)絡(luò)抓包方式,只能檢測ID C機(jī)房內(nèi)部的IP,屬于被動檢測,需要網(wǎng)站有訪問時才能檢測到。

⑵只能部署在ID C網(wǎng)關(guān)出口處,硬件成本較高。

⑶無法針對專線用戶進(jìn)行檢測。⑷無法對動態(tài)ADSL線路的網(wǎng)站進(jìn)行檢測。針對以上問題,廣東聯(lián)通提出了使用搜索引擎技術(shù)結(jié)合DN S數(shù)據(jù)挖掘?qū)崿F(xiàn)對網(wǎng)絡(luò)信息安全全面、準(zhǔn)確的防控方案,其原理及意義如下。利用搜索引擎技術(shù)結(jié)合DN S服務(wù)器日志數(shù)據(jù)分析,實(shí)現(xiàn)海量域名數(shù)據(jù)挖掘,形成全球域名基礎(chǔ)數(shù)據(jù)庫,通過對海量的域名信息自動獲取、特征匹配、智能分類、敏感詞提取、自動安全評級、熱點(diǎn)信息追蹤、輿情分析、并建立網(wǎng)站黑名單等,實(shí)現(xiàn)對網(wǎng)站信息的安全監(jiān)控。搜索引擎技術(shù)和D N S 數(shù)據(jù)挖掘的相互彌補(bǔ)可以保證域名基礎(chǔ)數(shù)據(jù)的完整性與實(shí)時性,降低部署成本,通過對掃描域名網(wǎng)站的分類和分級可實(shí)現(xiàn)對指定類別、特征的網(wǎng)站的定向掃描,提高掃描的針對性與準(zhǔn)確性,并縮短掃描周期。www. ttm . com.cn

,

特別策劃完善安全防護(hù) 助力運(yùn)營轉(zhuǎn)型

URL

URL數(shù)據(jù)容器

例行過濾策略

基礎(chǔ)信息檢查策略

插件引擎數(shù)據(jù)分析接口數(shù)據(jù)處理策略PR處理策略

抓取頁面內(nèi)容

排重策略

數(shù)據(jù)存儲容器

數(shù)據(jù)審計(jì)策略二級緩存策略

圖1 網(wǎng)絡(luò)蜘蛛系統(tǒng)流程

2.1 搜索引擎技術(shù)2.1.1搜索引擎技術(shù)

搜索引擎技術(shù)是僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù),要用到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),具有綜合性和挑戰(zhàn)性。伴隨互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,它越來越引起人們的重視。

搜索引擎技術(shù)的作用表現(xiàn)為如下幾個方面。

⑴可以作為定向收集網(wǎng)絡(luò)數(shù)據(jù)的一種方式,實(shí)現(xiàn)途徑是通過網(wǎng)絡(luò)蜘蛛進(jìn)行抓取。

⑵可以實(shí)現(xiàn)對網(wǎng)站及網(wǎng)頁數(shù)據(jù)的分析,為用戶搜索互聯(lián)網(wǎng)信息提供基礎(chǔ)數(shù)據(jù)和數(shù)據(jù)索引。

⑶可以作為研究網(wǎng)民行為的有效工具,通過收集用戶網(wǎng)上登錄、搜索、社區(qū)行為等信息,對用戶的上網(wǎng)行為習(xí)慣等進(jìn)行分析。

2.1.2網(wǎng)絡(luò)蜘蛛技術(shù)

網(wǎng)絡(luò)蜘蛛是一個自動抓取網(wǎng)頁的程序,為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁內(nèi)容,并對內(nèi)容進(jìn)行數(shù)據(jù)挖掘,提取出所需要數(shù)據(jù),是搜索引擎技術(shù)的核心。

傳統(tǒng)網(wǎng)絡(luò)蜘蛛從一個或若干初始網(wǎng)頁的U R L 開始,獲得初始網(wǎng)頁上的U R L ,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的U R L 放入隊(duì)列, 同時分析頁面上的其他信息,獲取系統(tǒng)所需信息,并存儲到數(shù)據(jù)庫中,直到滿足系統(tǒng)的一定停止條件時停止抓取。

網(wǎng)絡(luò)蜘蛛從抓取方式上可分為通用蜘蛛和聚焦蜘蛛。常見的搜索引擎所用的蜘蛛都屬于通用蜘蛛,特點(diǎn)是追求數(shù)據(jù)的完整性及覆蓋的全面性。聚焦蜘蛛是為了滿足特定范圍的數(shù)據(jù)需求,進(jìn)行定向地抓取。

般采用Un i x/Li n u x BI N D解決方案,B I N D在DN S服務(wù)軟件領(lǐng)域保持著80以上的市場占有率,Un i x平臺也以其出色的性能在網(wǎng)絡(luò)服務(wù)領(lǐng)域占據(jù)重要的位置。

通過對D N S 訪問日志的分析,提取出所有被訪問網(wǎng)站的域名和IP地址等信息,對域名基礎(chǔ)數(shù)據(jù)庫進(jìn)行補(bǔ)全,并通過接口找到網(wǎng)站的具體物理位置,分析網(wǎng)站是否已在工業(yè)和信息化部備案供工作人員查詢。

根據(jù)D N S 服務(wù)器的種類及配置的區(qū)別,其日志數(shù)據(jù)的格式也各有不同,對此需要針對不同的D N S 服務(wù)器日志提供不同的日志分析模塊進(jìn)行處理。

2.3 搜索引擎技術(shù)與DNS數(shù)據(jù)挖

掘結(jié)合的域名信息采集

網(wǎng)絡(luò)蜘蛛終端服務(wù)器通過部署網(wǎng)絡(luò)蜘蛛系統(tǒng)收集大量域名信息,提

2.2 DNS服務(wù)器數(shù)據(jù)挖掘

目前市場上主流的DN S服務(wù)器一

交至域名基礎(chǔ)數(shù)據(jù)庫。DN S服務(wù)器將實(shí)時的DN S日志提交至數(shù)據(jù)分析服務(wù)

38

TELECO MM U NICAT IONS TECHNOLOGY /2011·5

,

爬蟲客戶端

爬蟲客戶端

PR分析器

爬蟲客戶端

URL排重

爬蟲服務(wù)器

數(shù)據(jù)服務(wù)器

爬蟲客戶端

策略管理

爬蟲客戶端

圖2 網(wǎng)絡(luò)蜘蛛系統(tǒng)部署

存取方案及蜘蛛本地運(yùn)行效率等因素的限制。

⑴網(wǎng)絡(luò)延時是影響蜘蛛運(yùn)行效率

域名提取

DNS服務(wù)器提取DNS日志數(shù)據(jù)

數(shù)據(jù)提交

數(shù)據(jù)分析入庫

過濾排重

最重要的因素,蜘蛛需要不斷從互聯(lián)網(wǎng)下載數(shù)據(jù),進(jìn)行分析,如果網(wǎng)絡(luò)狀況不理想,蜘蛛的抓取速度會受嚴(yán)重的影響。網(wǎng)絡(luò)蜘蛛從設(shè)計(jì)上應(yīng)該支持分布式抓取,這樣可以把網(wǎng)絡(luò)壓力分散到不同的區(qū)域。

日志分析服務(wù)器

域名基礎(chǔ)數(shù)據(jù)庫

⑵抓取算法的選擇對蜘蛛的運(yùn)行效率是至關(guān)重要的,目前較先進(jìn)的智能型蜘蛛大都采用最佳優(yōu)先搜索或廣度優(yōu)先 抓取策略。

⑶抓取策略的選取是判斷一個網(wǎng)

圖3 DNS日志分析流程

站是否有必要繼續(xù)抓取的關(guān)鍵,通過制定抓取策略,可以盡早結(jié)束某一網(wǎng)

器,數(shù)據(jù)分析服務(wù)器通過數(shù)據(jù)處理提取出最近訪問的域名信息,將域名等信息提交至域名基礎(chǔ)數(shù)據(jù)庫。蜘蛛抓取域名和DN S收集域名兩者結(jié)合實(shí)現(xiàn)了全面性和實(shí)時性的互補(bǔ),能夠顯著提高域名信息收集的完整性。

3.1 網(wǎng)絡(luò)蜘蛛系統(tǒng)

3.1.1網(wǎng)絡(luò)蜘蛛的瓶頸與解決方案

網(wǎng)絡(luò)蜘蛛的理想狀態(tài)是能夠快速、有效地遍歷整個待抓取區(qū)域的網(wǎng)頁內(nèi)容,蜘蛛的效率主要受網(wǎng)絡(luò)延時、抓取算法、抓取策略、數(shù)據(jù)

站的抓取,避免不必要的、盲目的抓取。抓取策略在聚焦型蜘蛛中是很常見的。

⑷數(shù)據(jù)存取方式也是重要組成部分,如何高效地存取抓取的數(shù)據(jù)、處理數(shù)據(jù)并發(fā),是一個必要的研究課題。

www. ttm . com.cn

,

特別策劃完善安全防護(hù) 助力運(yùn)營轉(zhuǎn)型

互聯(lián)網(wǎng)

網(wǎng)絡(luò)蜘蛛

蜘蛛一蜘蛛二蜘蛛三蜘蛛…

日志提取

DNS 日志分析

數(shù)據(jù)存儲

日志分析

域名基礎(chǔ)數(shù)據(jù)庫

域名采集

域名信息查詢,按地區(qū)、IP、類型等條件

圖4 系統(tǒng)架構(gòu)

⑸蜘蛛程序應(yīng)該能夠支持多線程、多進(jìn)程并行抓取,從而能更加有效地利用網(wǎng)絡(luò)空閑資源,并能夠快速穩(wěn)定地對已經(jīng)抓取到的數(shù)據(jù)進(jìn)行分析處理。

根據(jù)指定條件進(jìn)行定向抓取。如圖2所示。網(wǎng)絡(luò)蜘蛛系統(tǒng)支持分布式,多終端、多進(jìn)程、多線程并行抓取,各個終端可以運(yùn)行在不同地域。這種部署方式提高了系統(tǒng)的并發(fā)處理能力,能夠更有效地利用網(wǎng)絡(luò)帶寬,把數(shù)據(jù)處理的壓力從服務(wù)器轉(zhuǎn)移到各個終端,而各個終端相互并行協(xié)同工作,互不影響。通過這種系統(tǒng)架構(gòu),系統(tǒng)的抓取能力及數(shù)據(jù)處理能力得到成倍的提升。

3.1.3聚焦型網(wǎng)絡(luò)蜘蛛系統(tǒng)流程

聚焦型網(wǎng)絡(luò)蜘蛛系統(tǒng)流程如圖1所示。蜘蛛從UR L數(shù)據(jù)容器中獲取到下一個待抓取的UR L,通過一系列過濾策略進(jìn)行過濾,抓取到頁面內(nèi)容,然后通過調(diào)用SpiderPlug進(jìn)行數(shù)據(jù)分析處理,通過數(shù)據(jù)處理策略及PR策略對數(shù)據(jù)進(jìn)一步分析,分析完成后,將數(shù)據(jù)提交到數(shù)據(jù)審計(jì)模塊,經(jīng)審計(jì)后提交到緩存模塊,最后由緩存處理模塊提交到數(shù)據(jù)容器。

蜘蛛系統(tǒng)的數(shù)據(jù)抓取模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)存取模塊互相獨(dú)立,可根據(jù)需要進(jìn)行單獨(dú)配置。

3.1.2聚焦型網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)方案

由于網(wǎng)絡(luò)數(shù)據(jù)數(shù)量龐大,即使最強(qiáng)的搜索引擎也只能抓取到其中的一小部分?jǐn)?shù)據(jù),聚焦型網(wǎng)絡(luò)蜘蛛與傳統(tǒng)蜘蛛的重要區(qū)別就是支持智能選擇機(jī)制,而智能選擇機(jī)制的核心是數(shù)據(jù)反饋機(jī)制,采用聚焦搜索方式,掃描可以更具針對性,掃描結(jié)果更加精確,可以有效利用有限的硬件資源最大可能地抓取所需要的信息。一個良好的蜘蛛系統(tǒng)不僅具有高效的數(shù)據(jù)抓取能力,而且應(yīng)該具有智能的分析機(jī)制,可以自動計(jì)算出最佳爬行路徑并能夠

3.2 DNS服務(wù)器日志挖掘模塊

D N S服務(wù)器日志分析流程如圖3所示。通過對網(wǎng)絡(luò)爬蟲進(jìn)行域名和網(wǎng)站數(shù)據(jù)的采集能夠準(zhǔn)確地抓取到網(wǎng)絡(luò)上大部分的域名,但僅通過爬蟲來收集域名數(shù)據(jù)仍有部分不足,原因如下。

3.1.4聚焦型網(wǎng)絡(luò)蜘蛛系統(tǒng)部署

聚焦型網(wǎng)絡(luò)蜘蛛系統(tǒng)部署情況

40

TELECO MM U NICAT IONS TECHNOLOGY /2011·5

,

⑴如果域名無外部鏈接,則爬蟲無法按正常途徑抓取到該域名。

⑵如果網(wǎng)站域名外鏈較少或者較隱蔽,爬蟲抓取到的機(jī)率就會降低。

對于以上問題,通過提取DN S日志對域名信息進(jìn)行補(bǔ)全,解決方案如下。

D N S日志分析服務(wù)器實(shí)時提取DN S 查詢?nèi)罩?,然后對?shù)據(jù)進(jìn)行分析處理,提取出用戶訪問的域名,通過排重過濾等數(shù)據(jù)處理,將域名提交到域名基礎(chǔ)數(shù)據(jù)庫,作為域名基礎(chǔ)數(shù)據(jù)源。

通過爬蟲和DN S結(jié)合的方式對域名數(shù)據(jù)進(jìn)行收集,能夠確保域名數(shù)據(jù)的完整。

別和等級對網(wǎng)站進(jìn)行不同級別的監(jiān)控與掃描,使掃描覆蓋面更全,針對性更強(qiáng)。

域名反查系統(tǒng)根據(jù)用戶需要可支持多種條件進(jìn)行篩選。

⑴按I P 段進(jìn)行查詢,如可查詢10.3.3.1—10.3.5.255的域名。

⑵按地區(qū)進(jìn)行查詢,如可查詢“深圳聯(lián)通”所有域名。

⑶按域名后綴進(jìn)行查詢,如可只查詢 .com的域名。

⑷按類型進(jìn)行查詢,如可選擇只查詢WAP類型的網(wǎng)站。

心、基礎(chǔ)運(yùn)營商,該技術(shù)的使用將會大大提高區(qū)域內(nèi)的網(wǎng)絡(luò)安全級別,對降低部署成本、提高網(wǎng)絡(luò)監(jiān)管力度、凈化網(wǎng)絡(luò)環(huán)境、提升網(wǎng)絡(luò)安全級別有

著重要的現(xiàn)實(shí)意義。

如對本文內(nèi)容有任何觀點(diǎn)或評論,請發(fā)E-ma i l至editor@ttm.com.cn。

楊世標(biāo)

網(wǎng)絡(luò)設(shè)計(jì)師,現(xiàn)任職于中國聯(lián)通廣東分公司運(yùn)維部數(shù)據(jù)互聯(lián)維護(hù)主管,具有豐富的IP網(wǎng)絡(luò)維護(hù)及網(wǎng)絡(luò)安全實(shí)戰(zhàn)經(jīng)驗(yàn)。

4.3 DNS域名分析組件

3.3 系統(tǒng)架構(gòu)

D N S數(shù)據(jù)挖掘與搜索引擎相結(jié)合的系統(tǒng)架構(gòu)如圖4所示。

通過分析DN S日志信息,提取用戶訪問的域名,可以對蜘蛛抓取不到的部分域名進(jìn)行補(bǔ)全,能夠較高地提升域名數(shù)據(jù)的全面性。

梅汝鵬

工程師,現(xiàn)任職于中國聯(lián)通廣東分公司運(yùn)維部安全管理經(jīng)理,具有豐富的通信網(wǎng)絡(luò)安全管理經(jīng)驗(yàn)。王晶晶

4.1 領(lǐng)先的爬蟲技術(shù)

廣東聯(lián)通開發(fā)的分布式爬蟲引擎組件采用廣度優(yōu)先算法結(jié)合抓取策略,具有穩(wěn)定高效、高并發(fā)性、高智能等特點(diǎn),能夠?qū)χ付ǖ貐^(qū)、指定類型、指定后綴的網(wǎng)站進(jìn)行定向抓取與數(shù)據(jù)分析,通過條件設(shè)定可提高爬蟲系統(tǒng)的抓取針對性與抓取效率。

采用該爬蟲引擎進(jìn)行域名信息的采集測試,單個蜘蛛客戶端進(jìn)程每天可以發(fā)現(xiàn)新域名50萬以上,并可以長時間穩(wěn)定、高速、高效率運(yùn)行。而同行業(yè)的整個系統(tǒng)每天發(fā)現(xiàn)的新域名僅數(shù)萬,不及廣東聯(lián)通單個客戶端發(fā)現(xiàn)數(shù)量的1/10,經(jīng)過一個月的抓取,采集了2 000多萬的域名。

4.4 系統(tǒng)效率

廣東聯(lián)通省內(nèi)互聯(lián)網(wǎng)網(wǎng)站檢測發(fā)現(xiàn)率達(dá)到99以上,且對新檢測出的域名在30 min內(nèi)和工業(yè)和信息化部網(wǎng)站備案接口(接口狀態(tài)正常)完成IC P備案信息驗(yàn)證;對檢測出的網(wǎng)站,比對關(guān)鍵字詞典,在2 h內(nèi)完成初次內(nèi)容檢測報(bào)告,并在12 h內(nèi)完成網(wǎng)頁內(nèi)容變化重檢測;對檢測出的網(wǎng)站,比對W e b 、W A P 網(wǎng)站漏洞特征庫,在2 h內(nèi)完成初次內(nèi)容檢測報(bào)告,并在12 h內(nèi)完成網(wǎng)頁內(nèi)容變化重檢測,極大地提高了廣東聯(lián)通網(wǎng)絡(luò)信息安全的維護(hù)效率。

網(wǎng)絡(luò)安全員,現(xiàn)任職于中國聯(lián)通廣東分公司運(yùn)維部網(wǎng)管中心互聯(lián)網(wǎng)安全維護(hù),具有豐富的IP網(wǎng)絡(luò)安全維護(hù)經(jīng)驗(yàn)。

歐勝推出創(chuàng)新的圖像處理解決方案系列新品

歐勝微電子有限公司推出一系列全新的模擬前端(AFE)數(shù)字化芯片,它們能夠很方便地集成到新一代辦公或家用圖像處理設(shè)備中,包括數(shù)字復(fù)印機(jī)、掃描儀和多功能打印機(jī)。

作為歐勝圖像處理產(chǎn)品組合的一部分,WM8232、WM8233、WM8234 和WM8235處理和數(shù)字化從電荷耦合器件或者接觸式圖像傳感器輸出的模擬信號。它們提供多樣化的通道和模擬數(shù)字轉(zhuǎn)換配置,可讓系統(tǒng)設(shè)計(jì)師去選擇最適合其目的的配置。對于用戶來講,這意味著在得到更高的掃描分辨率時實(shí)現(xiàn)更高的掃描速度。

通過搜索引擎技術(shù)在網(wǎng)站域名數(shù)據(jù)采集中的實(shí)際應(yīng)用,結(jié)合DN S數(shù)據(jù)挖掘,不僅能夠完成對網(wǎng)站域名數(shù)量的提高,而且可以對網(wǎng)站域名進(jìn)行智能分類、安全等級測評、特征提取、輿情監(jiān)控等處理。

本項(xiàng)目可廣泛應(yīng)用于各大數(shù)據(jù)中

4.2 完整的網(wǎng)站域名基礎(chǔ)信息數(shù)

據(jù)庫

廣東聯(lián)通通過搜索和DN S日志數(shù)據(jù)挖掘可采集有效的域名數(shù)據(jù)庫,并對每一網(wǎng)站進(jìn)行歸類、關(guān)鍵詞提取及網(wǎng)站分級的處理,從而可根據(jù)網(wǎng)站類

www. ttm . com.cn

標(biāo)簽: