基礎(chǔ)編程入門教程 如何用Weka將英文文本數(shù)據(jù)集轉(zhuǎn)化成ARFF格式?
如何用Weka將英文文本數(shù)據(jù)集轉(zhuǎn)化成ARFF格式?第一步是建立一個(gè)中文數(shù)據(jù)集。第二步是將數(shù)據(jù)集準(zhǔn)備成Weka可以處理的結(jié)構(gòu)。這是一件好事。只需壓縮數(shù)據(jù)集,因?yàn)樗璧母袷绞菍⒁活愇募旁谝粋€(gè)文件夾中。但
如何用Weka將英文文本數(shù)據(jù)集轉(zhuǎn)化成ARFF格式?
第一步是建立一個(gè)中文數(shù)據(jù)集。第二步是將數(shù)據(jù)集準(zhǔn)備成Weka可以處理的結(jié)構(gòu)。這是一件好事。只需壓縮數(shù)據(jù)集,因?yàn)樗璧母袷绞菍⒁活愇募旁谝粋€(gè)文件夾中。但還有一個(gè)問(wèn)題。您的計(jì)算機(jī)通常沒(méi)有足夠的內(nèi)存來(lái)處理此數(shù)據(jù)集。您可以選擇幾個(gè)類別,并在每個(gè)類別中放置幾十個(gè)文檔。第三步是分詞。第四步是使用wekawiki中的示例將數(shù)據(jù)集轉(zhuǎn)換為ARFF格式。Weka是一套機(jī)器學(xué)習(xí)算法,可用于分類、預(yù)測(cè)等。由于Weka支持的數(shù)據(jù)格式是ARFF或CSV,因此在進(jìn)行Weka實(shí)驗(yàn)時(shí)必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。通常,我們可以在Excel中導(dǎo)入TXT,然后將其保存為.CSV文件(這種格式Weka也是可識(shí)別的),然后打開(kāi)。在Weka、tool、arffviewer中創(chuàng)建CSV文件,并將其另存為。阿芙!