聚類效果的評(píng)價(jià)方法 聚類和分類的區(qū)別?
聚類和分類的區(qū)別?簡(jiǎn)單地說,分類(Categorization or Classification)就是按照某種標(biāo)準(zhǔn)給對(duì)象貼標(biāo)簽(label),再根據(jù)標(biāo)簽來區(qū)分歸類。簡(jiǎn)單地說,聚類是指事先沒有“標(biāo)簽”
聚類和分類的區(qū)別?
簡(jiǎn)單地說,分類(Categorization or Classification)就是按照某種標(biāo)準(zhǔn)給對(duì)象貼標(biāo)簽(label),再根據(jù)標(biāo)簽來區(qū)分歸類。簡(jiǎn)單地說,聚類是指事先沒有“標(biāo)簽”而通過某種成團(tuán)分析找出事物之間存在聚集性原因的過程。 區(qū)別是,分類是事先定義好類別 ,類別數(shù)不變 。分類器需要由人工標(biāo)注的分類訓(xùn)練語料訓(xùn)練得到,屬于有指導(dǎo)學(xué)習(xí)范疇。聚類則沒有事先預(yù)定的類別,類別數(shù)不確定。 聚類不需要人工標(biāo)注和預(yù)先訓(xùn)練分類器,類別在聚類過程中自動(dòng)生成 。分類適合類別或分類體系已經(jīng)確定的場(chǎng)合,比如按照國(guó)圖分類法分類圖書;聚類則適合不存在分類體系、類別數(shù)不確定的場(chǎng)合,一般作為某些應(yīng)用的前端,比如多文檔文摘、搜索引擎結(jié)果后聚類(元搜索)等。 分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器 ),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)類中。 要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可表示為:(v1,v2,...,vn c);其中vi表示字段值,c表示類別。分類器的構(gòu)造方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。 聚類(clustering)是指根據(jù)“物以類聚”原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數(shù)據(jù)對(duì)象的集合叫做簇,并且對(duì)每一個(gè)這樣的簇進(jìn)行描述的過程。它的目的是使得屬于同一個(gè)簇的樣本之間應(yīng)該彼此相似,而不同簇的樣本應(yīng)該足夠不相似。與分類規(guī)則不同,進(jìn)行聚類前并不知道將要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來定義組。其目的旨在發(fā)現(xiàn)空間實(shí)體的屬性間的函數(shù)關(guān)系,挖掘的知識(shí)用以屬性名為變量的數(shù)學(xué)方程來表示。聚類技術(shù)正在蓬勃發(fā)展,涉及范圍包括數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、空間數(shù)據(jù)庫(kù)技術(shù)、生物學(xué)以及市場(chǎng)營(yíng)銷等領(lǐng)域,聚類分析已經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)非常活躍的研究課題。常見的聚類算法包括:K-均值聚類算法、K-中心點(diǎn)聚類算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。