java和python 一個100g的大文件,如何高效統(tǒng)計詞頻?并取出出現(xiàn)頻率最高的前三個?
一個100g的大文件,如何高效統(tǒng)計詞頻?并取出出現(xiàn)頻率最高的前三個?首先,將文章分成單詞,轉(zhuǎn)移到數(shù)據(jù)庫,然后按單詞分組,或者使用elasticsearch更快順便說一句,讓我們看看安利用Python編
一個100g的大文件,如何高效統(tǒng)計詞頻?并取出出現(xiàn)頻率最高的前三個?
首先,將文章分成單詞,轉(zhuǎn)移到數(shù)據(jù)庫,然后按單詞分組,或者使用elasticsearch更快
順便說一句,讓我們看看安利用Python編寫的詞頻統(tǒng)計腳本:英文文本Python詞頻統(tǒng)計-魏華文章-智湖專欄