卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

java代碼讀取文本內(nèi)容 基于新聞評論的短文本聚類,怎么利用nlp相關(guān)技術(shù)?

基于新聞評論的短文本聚類,怎么利用nlp相關(guān)技術(shù)?首先,回答在短文本聚類中使用了哪些技術(shù),比如分詞(一個好的分詞設(shè)備會減少分詞片段)、過濾停止詞、一些對聚類影響不大的詞,比如Le、代詞、助詞、語義擴展

基于新聞評論的短文本聚類,怎么利用nlp相關(guān)技術(shù)?

首先,回答在短文本聚類中使用了哪些技術(shù),比如分詞(一個好的分詞設(shè)備會減少分詞片段)、過濾停止詞、一些對聚類影響不大的詞,比如Le、代詞、助詞、語義擴展,比如word2vec,特征選擇、卡方檢驗、互信息、TFIDF等。本文通過調(diào)整參數(shù)來調(diào)整問題的記憶,為了減少信息量,我們在文本信息空間中搜索任意兩個最相關(guān)的文本信息,并將它們壓縮為一個文本信息。

簡并算法的實現(xiàn)比較整個信息空間中所有文本的相關(guān)性(熟人),得到它們之間的相關(guān)性,然后進行配對。配對的要求是兩個文本信息最相關(guān)。例如,如果a找到文檔B,那么B也必須找到最相關(guān)的文檔,即a。注意:在某些情況下,a的最近文檔是C,那么B和B的最相關(guān)文檔也是C。存在a、B和C自一致的情況,即形成最近空間信息的三角形。

在獲得最相似的文檔后,我們將僅對它們進行平均或簡單地添加它們。

信息空間中獨立信息的數(shù)量將減少到原來的一半以下,然后在合并過程中重復(fù)實現(xiàn)1的過程。

最后,信息被縮減為唯一信息,即整個信息文本的平均值。

繪制信息樹的結(jié)構(gòu),可以根據(jù)簇的大小自動聚類。