卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

基于核方法的貝葉斯郵件分類網(wǎng)絡(luò)研究

第36卷 第3期 電 子 科 技 大 學(xué) 學(xué) 報(bào) V ol.36 No.3

第36卷 第3期 電 子 科 技 大 學(xué) 學(xué) 報(bào) V ol.36 No.3 2007年6月 Journal of University of Electronic Science and Technology of China Jun. 2007

基于核方法的貝葉斯郵件分類網(wǎng)絡(luò)研究

劉 震 ,周明天

(電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 610054)

【摘要】提出一種包含核函數(shù)的Bayesian 參數(shù)估計(jì)方法,提高了Bayesian 參數(shù)估計(jì)的實(shí)用性。結(jié)合郵件內(nèi)容和報(bào)文格式兩個(gè)方面分析和提取郵件的重要特征,建立了對(duì)應(yīng)的Bayesian 郵件分類網(wǎng)絡(luò)。將包含核函數(shù)的Bayesian 參數(shù)估計(jì)方法應(yīng)用到郵件分類網(wǎng)絡(luò),在對(duì)不同郵件測試集的在線學(xué)習(xí)試驗(yàn)結(jié)果證明,這種新的分類模型能夠有效地實(shí)現(xiàn)垃圾郵件的分類過濾。

關(guān) 鍵 詞 Bayesian 網(wǎng)絡(luò); 高斯核; 參數(shù)估計(jì); 垃圾郵件;

中圖分類號(hào) TP393 文獻(xiàn)標(biāo)識(shí)碼 A

Research on Bayesian Classification Network for Spam Based on Kernel Method LIU Zhen,ZHOU Ming-tian (School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 610054)

Abstract A kernel function based Bayesian parameter estimation approach is proposed in this paper which is able to make the algorithm more applicable. Combined with the both sides of email content and format, a Bayesian network for spam classification is well constructed. The testing results by on-line learning for different email testing sets prove that the new model can ensure the classification and filtering efficiently by applying the kernel function based Bayesian parameter estimation approach into the classification network.

Key words Bayesian network; Gaussian kernel; parameter estimation; spam

Bayesian 參數(shù)估計(jì)作為基于統(tǒng)計(jì)學(xué)的不確定推要估計(jì)下一次X [m 1]的概率,可計(jì)算X 的后驗(yàn)理理論的一個(gè)重要研究方向,有著堅(jiān)實(shí)完備的數(shù)學(xué)Bayesian 參數(shù)估計(jì)概率:

將Bayesian 參數(shù)估計(jì)引入到貝葉斯網(wǎng)絡(luò)學(xué)習(xí)基礎(chǔ)[1]。p (x [m 1]=k |D ) =∫θp (Θ|D )d Θ (1) 中,可以充分利用節(jié)點(diǎn)的先驗(yàn)知識(shí)作后驗(yàn)估計(jì);因

然而,式(1)求解的前提需要知道概率密度函數(shù)為節(jié)點(diǎn)之間邏輯上的因果關(guān)系,能夠提高先驗(yàn)的可

p (Θ|D ) 的形式,如果預(yù)先無法得到精確的概率分信度。但由于概率密度函數(shù)通常是未知的,限制了

布函數(shù),則不能按照式(1)作概率參數(shù)學(xué)習(xí)。所以在經(jīng)典Bayesian 參數(shù)估計(jì)方法的應(yīng)用。本文通過引入核

實(shí)際的基于統(tǒng)計(jì)學(xué)習(xí)的模式分類問題中,需要研究方法,實(shí)現(xiàn)了對(duì)概率密度函數(shù)的近似估計(jì),從而提

如何得到概率密度函數(shù)。先假設(shè)從概率密度函數(shù)高了Bayesian 參數(shù)估計(jì)方法的實(shí)用性。在文獻(xiàn)[2]工

f X (x ) 提取隨機(jī)樣本x 1, x 2, " , x N ,一種自然的局部估作的基礎(chǔ)上,本文根據(jù)對(duì)垃圾郵件所作的特征屬性

計(jì)近似具有如下形式: 分析,構(gòu)建了有監(jiān)督Bayesian 網(wǎng)絡(luò);提出的垃圾郵件

#x ∈N (x 0) 分類過濾算法充分利用了網(wǎng)絡(luò)所建立的節(jié)點(diǎn)關(guān)系來 (2) f (x 0) =λN 實(shí)現(xiàn)不確定特征學(xué)習(xí),采用統(tǒng)計(jì)推理的方法確保了

式中 N (x 0) 是x 0周圍寬度為λ的較小度量鄰域。對(duì)垃圾郵件和正常郵件準(zhǔn)確和有效的分類識(shí)別。

KNN 和最小二乘回歸分析是傳統(tǒng)的研究近似概率密1 Bayesian參數(shù)估計(jì)理論 度函數(shù)的方法,但這些方法得到的估計(jì)是起伏的[1]。

所以本文采用光滑的Parzen 估計(jì): Bayesian 參數(shù)估計(jì)的思想是通過前m 次的先驗(yàn)

N 統(tǒng)計(jì)概率分布,估計(jì)第m 1次事件發(fā)生的概率。它?(x ) =1∑K (x , x ) (3) f λ0i N λi =1通過不斷地概率學(xué)習(xí),從而不斷地適應(yīng)和逼近變化因?yàn)槭?3)使用隨x 0的距離遞減的權(quán)處理鄰近的概率分布。已知隨機(jī)事件X 在前m 次的概率分布,

收稿日期:2005 ? 03 ? 07

作者簡介:劉 震(1976 ? ),男,博士生,主要從事智能安全、不確定推理、人工智能等方面的研究.

,

588 電 子 科 技 大 學(xué) 學(xué) 報(bào) 第36卷

x 0的觀測。所以本文選擇具有類似特征的高斯核K λ(x 0, x ) =φ(|x ?x 0|/λ) 。設(shè)φλ表示具有均值0和標(biāo)準(zhǔn)差λ的高斯密度,則概率密度函數(shù)為:

f ?(x ) =1N λ∑N

φi =1

λ(x ?x i

) =(F ?φλ)(x ) (4) 利用式(4),可以直接使用貝葉斯定理進(jìn)行分類。針對(duì)J 類問題,分別在類別上擬合非參數(shù)密度估計(jì)f ?j

(x ) ,j =1,2, " , J ,以及類的先驗(yàn)π?j 的估計(jì)(通常是樣本的比例) ,那么邊界判定式為:

Pr(?G =j |X =x ) =π?j f ?j (x 0) 0 (5) ∑J

π??(x ) k =1

j f k

02 有監(jiān)督Bayesian 郵件分類網(wǎng)絡(luò)

為了構(gòu)建有監(jiān)督的Bayesian 郵件分類網(wǎng)絡(luò),需要分析郵件的報(bào)文格式。根據(jù)RFC2822定義的Internet 郵件報(bào)文格式(Internet Message Format),一封郵件由報(bào)頭域(Header Fields)和正文(Body)組成。其中報(bào)頭必須存在,而正文是可選的。報(bào)頭是一系列由特殊語法構(gòu)成的文本行組成,正文則僅僅由字符串組成。正文和報(bào)頭由一空行分隔開。

報(bào)頭域是由域名(Field Name)和域體(Field Body)組成,二者以一個(gè)冒號(hào)分開。域名必須是可打印的

US-ASCII 字符,域體可以是任意的US-ASCII 字符。下面分析三個(gè)重要的報(bào)頭域:

(1) 起始日期域(The Origination Date Field):

Orig-date=”Date:”date-time CRLF 這個(gè)域可以成為Bayesian 網(wǎng)絡(luò)中一個(gè)節(jié)點(diǎn)的理由是因?yàn)樵谀承┟舾腥掌冢绻?jié)假日、病毒爆發(fā)日,

垃圾郵件容易泛濫,系統(tǒng)應(yīng)該對(duì)這些日期提高預(yù)警。

(2) 發(fā)件人地址域(Originator Fields):

from=”From:”mailbox-listCRLF,sender=”Sender:” mailbox CRLF,reply-to= ”Reply-To:”address-list CRLF

發(fā)件人地址域包括From 域、Sender 域和Reply-to 域,它們指明了郵件的來源。Sender 域顯然應(yīng)該成為Bayesian 網(wǎng)絡(luò)的一個(gè)節(jié)點(diǎn),對(duì)于垃圾郵件發(fā)送者,他們的郵件地址是最直接的一個(gè)判據(jù)。

(3) 目的地址域(Destination Address Fields): to=”To:”address-list CRLF,cc=”Cc:”address-list CRLF ,bcc=”Bcc:”(address-list/[CFWS])CRLF

目的地址域由三個(gè)可選的域構(gòu)成:To 域、Cc 域和Bcc 域。它們域名分別是“To ”

,“Cc ”和“Bcc ”,域體指明了郵件的收件人。通過Bc 域和Bcc 域可以作為判斷垃圾郵件的一個(gè)依據(jù)。

經(jīng)分析認(rèn)為郵件格式中的其他域不是判斷郵件

性質(zhì)的必要條件,所以本文沒有把它們納入Bayesian 網(wǎng)絡(luò)的結(jié)構(gòu)中。

對(duì)郵件體的分析目前仍然集中在某些關(guān)鍵詞出現(xiàn)的概率估計(jì)上,這是基于內(nèi)容的過濾技術(shù)常常關(guān)注的分類特征。本文研究關(guān)鍵字并不是采用簡單的關(guān)鍵詞匹配技術(shù)。因?yàn)楹芏嗬]件中出現(xiàn)的詞匯,也可能會(huì)出現(xiàn)在正常郵件中,所以應(yīng)該用概率的方法對(duì)關(guān)鍵字做必要的取舍。

圖1所示為根據(jù)垃圾郵件的基本特征構(gòu)建的一

個(gè)Bayesian 網(wǎng)絡(luò)。

IP 可以通過域名作反向DNS 查詢來得到,這樣可以有效地防止域名欺騙。由于需要通過Sender 的域名判定其IP 是否是垃圾郵件發(fā)送者IP 的概率,所以存在一根網(wǎng)絡(luò)連線從Sender 節(jié)點(diǎn)指向IP 節(jié)點(diǎn)。關(guān)鍵詞節(jié)點(diǎn)中所加省略號(hào),表示網(wǎng)絡(luò)中關(guān)鍵

詞不唯一,圖1只是一種省略的表示法。

由于Bayesian 網(wǎng)絡(luò)都是Causal 圖,箭頭描述了節(jié)點(diǎn)間的因果關(guān)系。圖1建立的網(wǎng)絡(luò)涵蓋了導(dǎo)致郵件成為垃圾郵件的主要因素。通過概率關(guān)系來描述該網(wǎng)絡(luò)可以定量地研究郵件是垃圾郵件的可能性。

圖1 基于垃圾郵件特征的完備Bayesian 網(wǎng)絡(luò)

3 訓(xùn)練郵件過濾器

本文以四個(gè)郵件樣本集為例,進(jìn)行郵件分類器的測試實(shí)驗(yàn)。其中EN 、PU1、Ling-Spam 集是網(wǎng)絡(luò)上可以下載的公共測試集[2],而CH 集是本文構(gòu)建的中文郵件測試集。設(shè)輸入向量定義為:X =(x date , x IP ,

x sender , x IP|sender, x bcc , x cc , x keyword 1, x keyword 2, " , x keyword n ) ,以

第2節(jié)構(gòu)建的Bayesian 分類網(wǎng)絡(luò)所描述的分類特征關(guān)系為分類依據(jù),按照第1節(jié)引入的核函數(shù)方法對(duì)初始郵件樣本集做近似的概率密度函數(shù)估計(jì),最終可以得到Spam 類和Legal 類郵件的判定邊界,

即得到集合{x |p (G =S spam |X =x ) =1/2}。圖2分別展示了在四

個(gè)樣本集上的判定邊界。當(dāng)有新的待分類郵件到達(dá)時(shí),首先要根據(jù)Bayesian 分類網(wǎng)絡(luò)對(duì)郵件的輸入特征向量作特征值的映射,本文對(duì)所有特征值都做了歸一化預(yù)處理。如果滿足{x |p (G =S spam |X =x ) > 1/2},該郵件判斷為垃圾郵件;如果{x |p (G =S spam |

,

第3期 劉 震 等: 基于核方法的貝葉斯郵件分類網(wǎng)絡(luò)研究 589

X =x ) <1/2},則把該郵件判斷為正常郵件;如果

正好處于邊界,則將該郵件放入未知類別緩存隊(duì)列,留到判定邊界更新以后再作二次判斷。將已分好類的郵件樣本加入樣本訓(xùn)練集,取一個(gè)適當(dāng)?shù)臅r(shí)間間隔更新一次判定邊界。每次有新的郵件到達(dá)時(shí),反復(fù)以上步驟,就可以實(shí)現(xiàn)基于有監(jiān)督Bayesian 網(wǎng)絡(luò)的在線學(xué)習(xí)和分類過濾。

Boundar Legal Spam

2量分征特0.50.40.30.2

00.20.40.60.8

1

特征分量1

a. EN 樣本集

2量分征特0.50.40.30.2特征分量1

b. PU1樣本集

0.9 Boundar 0.8 Legal Spam

0.7

2量0.6 分征特0.5 0.4 0.3 0.2 00.20.40.60.8

1

特征分量1

c. Ling-Spam 樣本集

0.70.65Boundar Legal 0.6Spam

0.55

2量0.5分征0.45特0.40.350.3

0.250.2特征分量1

d. CH樣本集

圖2 在EN 、PU1、Ling-Spam 、CH 集中產(chǎn)生的Bayesian 判定邊界

4 性能測試

在分析郵件分類網(wǎng)絡(luò)的性能之前,需要引入誤報(bào)和漏報(bào)的概念[3]。誤報(bào)是指誤將合法郵件判斷為

垃圾郵件(Legal →Spam ) 的情況;

漏報(bào)則恰好相反,是將垃圾郵件誤判為合法郵件(Spam →Legal ) 的情況。整體評(píng)價(jià)一個(gè)分類器的好壞時(shí),需要綜合看它在漏報(bào)和誤報(bào)兩方面的性能表現(xiàn)。

用戶一般能夠容忍把少數(shù)幾封垃圾郵件誤判為正常郵件的情況,但用戶很難容忍一封正常郵件誤判為垃圾郵件而被過濾掉,尤其對(duì)用戶非常重要的郵件。針對(duì)這一實(shí)際情況,本文解決的方法是引入權(quán)值校正。權(quán)重準(zhǔn)確率的定義式為:

W =λn L →L n S →S

Acc λN (6)

L N S 式(6)表示將一封正常郵件誤判為垃圾郵件等價(jià)于將λ封垃圾郵件誤判為正常郵件。換言之,如果誤報(bào)和漏報(bào)的郵件一樣多,那么誤報(bào)對(duì)郵件過濾系統(tǒng)優(yōu)劣評(píng)價(jià)的影響更負(fù)面。

) (/1c c A W 100

200

300

400

500

樣本數(shù)600/個(gè)

700800900

1000

圖3 λ=1時(shí)過濾不同郵件集的W Acc1對(duì)比圖

(下轉(zhuǎn)第593頁)

標(biāo)簽: