文本分類(lèi)樸素貝葉斯算法 為什么樸素貝葉斯稱為“樸素”?請(qǐng)簡(jiǎn)述樸素貝葉斯分類(lèi)的主要思想?
為什么樸素貝葉斯稱為“樸素”?請(qǐng)簡(jiǎn)述樸素貝葉斯分類(lèi)的主要思想?樸素貝葉斯分類(lèi)器是一種基于貝葉斯獨(dú)立假設(shè)定理的簡(jiǎn)單概率分類(lèi)器。Naive的直譯意思是簡(jiǎn)單、簡(jiǎn)單和天真。樸素貝葉斯分類(lèi)是最常用的兩種分類(lèi)算法
為什么樸素貝葉斯稱為“樸素”?請(qǐng)簡(jiǎn)述樸素貝葉斯分類(lèi)的主要思想?
樸素貝葉斯分類(lèi)器是一種基于貝葉斯獨(dú)立假設(shè)定理的簡(jiǎn)單概率分類(lèi)器。
Naive的直譯意思是簡(jiǎn)單、簡(jiǎn)單和天真。
樸素貝葉斯分類(lèi)是最常用的兩種分類(lèi)算法(決策樹(shù)分類(lèi)和樸素貝葉斯分類(lèi))。分類(lèi)是將一個(gè)未知樣本分成幾個(gè)已知類(lèi)的過(guò)程。
樸素貝葉斯分類(lèi)基于貝葉斯概率的思想,假設(shè)屬性相互獨(dú)立,如a和B,則p(B | a)表示a發(fā)生時(shí)B的概率。
詳見(jiàn)劉偉鵬大牛著《數(shù)學(xué)之美:平凡而神奇的貝葉斯方法
文本分類(lèi)算法主要包括樸素貝葉斯分類(lèi)算法、支持向量機(jī)分類(lèi)算法、KNN算法和決策樹(shù)算法。
樸素貝葉斯分類(lèi)算法主要利用文本中特征項(xiàng)和詞的類(lèi)別的組合概率來(lái)估計(jì)文本屬于哪個(gè)類(lèi)別的概率。
支持向量機(jī)(SVM)主要利用特征提取技術(shù)將文本信息轉(zhuǎn)化為詞向量,然后計(jì)算詞向量與訓(xùn)練類(lèi)數(shù)據(jù)的相似度。
KNN算法是在訓(xùn)練集中找到最近的K個(gè)文本,并根據(jù)這些文本的分類(lèi)來(lái)預(yù)測(cè)要分類(lèi)的文本屬于哪個(gè)類(lèi)別。
決策樹(shù)算法是在樹(shù)的基礎(chǔ)上建立預(yù)測(cè)模型,根據(jù)預(yù)測(cè)模型對(duì)文本進(jìn)行分類(lèi)預(yù)測(cè)。