文本分類樸素貝葉斯算法 目前文本分類算法常用的有哪些呢?
文本分類算法主要包括樸素貝葉斯分類算法、支持向量機(jī)分類算法、KNN算法和決策樹算法。樸素貝葉斯分類算法主要利用文本中特征項(xiàng)和詞的類別的組合概率來(lái)估計(jì)文本屬于哪個(gè)類別的概率。支持向量機(jī)(SVM)主要利用
文本分類算法主要包括樸素貝葉斯分類算法、支持向量機(jī)分類算法、KNN算法和決策樹算法。
樸素貝葉斯分類算法主要利用文本中特征項(xiàng)和詞的類別的組合概率來(lái)估計(jì)文本屬于哪個(gè)類別的概率。
支持向量機(jī)(SVM)主要利用特征提取技術(shù)將文本信息轉(zhuǎn)化為詞向量,然后計(jì)算詞向量與訓(xùn)練類數(shù)據(jù)的相似度。
KNN算法是在訓(xùn)練集中找到最近的K個(gè)文本,并根據(jù)這些文本的分類來(lái)預(yù)測(cè)要分類的文本屬于哪個(gè)類別。
決策樹算法是在樹的基礎(chǔ)上建立預(yù)測(cè)模型,根據(jù)預(yù)測(cè)模型對(duì)文本進(jìn)行分類預(yù)測(cè)。
目前文本分類算法常用的有哪些呢?
樸素貝葉斯分類器是一種基于貝葉斯獨(dú)立假設(shè)定理的簡(jiǎn)單概率分類器。
Naive的直譯意思是簡(jiǎn)單、簡(jiǎn)單和天真。
樸素貝葉斯分類是最常用的兩種分類算法(決策樹分類和樸素貝葉斯分類)。分類是將一個(gè)未知樣本分成幾個(gè)已知類的過程。
樸素貝葉斯分類基于貝葉斯概率的思想,假設(shè)屬性相互獨(dú)立,如a和B,則p(B | a)表示a發(fā)生時(shí)B的概率。
詳見劉偉鵬大牛著《數(shù)學(xué)之美:平凡而神奇的貝葉斯方法》