kmeans聚類分析實(shí)例 文本聚類算法真正能實(shí)用的有哪些算法?
文本聚類算法真正能實(shí)用的有哪些算法?在文本信息空間中,我們可以找到任意兩個(gè)最相關(guān)的文本信息,并將它們縮減為一個(gè)文本信息,從而達(dá)到信息量的縮減。簡并算法的實(shí)現(xiàn)比較整個(gè)信息空間中所有文本的相關(guān)性(熟人),
文本聚類算法真正能實(shí)用的有哪些算法?
在文本信息空間中,我們可以找到任意兩個(gè)最相關(guān)的文本信息,并將它們縮減為一個(gè)文本信息,從而達(dá)到信息量的縮減。
簡并算法的實(shí)現(xiàn)比較整個(gè)信息空間中所有文本的相關(guān)性(熟人),得到它們之間的相關(guān)性,然后進(jìn)行配對。配對的要求是兩個(gè)文本信息最相關(guān)。例如,如果a找到文檔B,那么B也必須找到最相關(guān)的文檔,即a。注意:在某些情況下,a的最近文檔是C,那么B和B的最相關(guān)文檔也是C。存在a、B和C自一致的情況,即形成最近空間信息的三角形。
在獲得最相似的文檔后,我們將僅對它們進(jìn)行平均或簡單地添加它們。
信息空間中獨(dú)立信息的數(shù)量將減少到原來的一半以下,然后在合并過程中重復(fù)實(shí)現(xiàn)1的過程。
最后,信息被縮減為唯一信息,即整個(gè)信息文本的平均值。
繪制信息樹的結(jié)構(gòu),可以根據(jù)簇的大小自動聚類。