sklearn中文教程使用sklearn做文本分類，速度比較慢，有什么優(yōu)化方法？

2021-03-14

2300

使用sklearn做文本分類，速度比較慢，有什么優(yōu)化方法？首先，我想你可以打印出每一步的時間，看看哪一步需要更多的時間，并嘗試找到優(yōu)化方法。讓我先談談我想到的幾點。在sklearn的一些分類方法中，您

使用sklearn做文本分類，速度比較慢，有什么優(yōu)化方法？

首先，我想你可以打印出每一步的時間，看看哪一步需要更多的時間，并嘗試找到優(yōu)化方法。讓我先談談我想到的幾點。

在sklearn的一些分類方法中，您還可以嘗試在其參數(shù)中使用multi-process選項。

如果您的培訓數(shù)據(jù)很大，請先嘗試LSA、LDA和其他模型來降低維度。這兩種方法在sklearn中也可用。

此外，在countvectorizer中，設置mintf和maxtf參數(shù)以避免過多的字。雖然這可能對速度影響很小，但可能會對結果產(chǎn)生影響。

如果你在處理中文文本，必須有一個好的停止詞和字典。

暫時就這么多了。

sklearn中有sgdclassizer，通過改變損失函數(shù)損失，可以對應不同的分類回歸學習器，如下圖所示：

默認為使用鉸鏈損失，即實現(xiàn)線性支持向量機