微博分析-內(nèi)容分析系統(tǒng) ROST CM 6 使用手記
微博分析-內(nèi)容分析系統(tǒng) ROST CM 6 使用手記 ROST CM 6 官網(wǎng)下載入口地址:一、功能性分析(1)分詞點(diǎn)擊功能性分析下拉列表框中的分詞選項(xiàng),打開分詞窗口,在待處理文本框中載入待處理文件,
微博分析-內(nèi)容分析系統(tǒng) ROST CM 6 使用手記 ROST CM 6 官網(wǎng)下載入口地址:
一、功能性分析
(1)分詞
點(diǎn)擊功能性分析下拉列表框中的分詞選項(xiàng),打開分詞窗口,在待處理文本框中載入待處理文件,如“虛擬學(xué)習(xí)團(tuán)隊(duì)2010-8-7.txt ”,則系統(tǒng)按照程序目錄下的User 目錄下的User.txt 文檔,自動在輸出文件框中生成“虛擬學(xué)習(xí)團(tuán)隊(duì)2010-8-7_分詞后.txt ”文件,獲得以空格分離的分詞后文檔,如果原來文檔中有空格的位置保留空格。點(diǎn)擊確定按鈕,即可打開該文檔。
如果需要自己增加一些詞,則點(diǎn)擊工具下拉列表框中的自定義文件→分詞自定義詞表,系統(tǒng)將自動在記事本中打開user 目錄下的user .txt 文件,編輯后點(diǎn)擊保存存盤,再次重新啟動本軟件或點(diǎn)擊重載自定義詞表菜單,方可生效。
(2)字頻分析
點(diǎn)擊功能性分析下拉列表框中的字頻分析選項(xiàng),打開字頻分析窗口,在待處理文件框中載入待處理文件,如“虛擬學(xué)習(xí)團(tuán)隊(duì)2010-8-7.txt ”,則系統(tǒng)自動在輸出文件框中生成“虛擬學(xué)習(xí)團(tuán)隊(duì)2010-8-7_字頻.txt ”文件,點(diǎn)擊確定按鈕,即可打開該文檔。
(3)英文詞頻分析
,文件詞頻統(tǒng)計(jì)
點(diǎn)擊功能性分析下拉列表框中的英文詞頻分析選項(xiàng), 打開ROST 英文詞頻統(tǒng)計(jì)和超綱單詞分析窗口。點(diǎn)擊文件菜單下的打開菜單項(xiàng)或點(diǎn)擊工具欄上的打開按鈕,打開要統(tǒng)計(jì)的英文文檔,然后選擇統(tǒng)計(jì)菜單下的統(tǒng)計(jì)文件詞頻菜單項(xiàng)或工具欄上的統(tǒng)計(jì)按鈕,即可統(tǒng)計(jì)出文檔的所有單詞。點(diǎn)擊單選按鈕綱內(nèi),可統(tǒng)計(jì)該文檔的綱內(nèi)詞;點(diǎn)擊單選按鈕超綱,可統(tǒng)計(jì)該文檔中的超綱詞。選擇復(fù)選框全選,可全選表格所有單詞;選擇復(fù)選框歸并單詞變形,可將變形單詞進(jìn)行歸并。
對統(tǒng)計(jì)出的單詞,在表格上點(diǎn)擊右鍵,彈出快捷菜單,可以將選擇的詞匯添加到常用詞語表,或者將選擇的詞匯從常用詞語表中刪除。
要在文本框中高亮顯示某單詞,可以勾選該單詞的檢查框;如果取消勾選,則文本框中該單詞恢復(fù)普通顯示狀態(tài)。
剪切板詞頻統(tǒng)計(jì)
如果要統(tǒng)計(jì)剪切板詞頻,則選擇統(tǒng)計(jì)菜單下的統(tǒng)計(jì)剪切板詞頻菜單項(xiàng),則剪切板上的單詞會顯示在打開文件框中,再點(diǎn)擊工具欄上的統(tǒng)計(jì)按鈕即可。
查看統(tǒng)計(jì)表格
點(diǎn)擊查看菜單下的統(tǒng)計(jì)表格菜單項(xiàng),即可查看空的統(tǒng)計(jì)表格。 查看大綱列表
點(diǎn)擊查看菜單下的大綱列表菜單項(xiàng),打開大綱列表窗口,即可查看大綱列表。如果要查看某大綱,雙擊該行即可。在大綱列表窗口,
,還可以自定義某個詞匯表,方法是在大綱名稱文本框中輸入大綱名稱,然后在大綱文件文本框中載入大綱文件,再點(diǎn)擊添加按鈕即可。若要刪除某詞匯表,則選中該詞匯表后,點(diǎn)擊刪除按鈕即可。 描紅超綱詞
如果要查看所有勾選的超綱詞匯在文章中的位置,則首先點(diǎn)擊統(tǒng)計(jì)、然后選擇超綱,再勾選全選,然后點(diǎn)擊查看菜單中的描紅選定的超綱的詞匯即可。
查看非詞表
非詞表你不想統(tǒng)計(jì)的單詞或者字符的列表,該文件位于程序目錄下的dict 子目錄下的notwords.txt 。要查看非詞表,點(diǎn)擊工具菜單下的查看非詞表即可。如果要啟動非詞表,則工具菜單下的點(diǎn)擊啟動非詞表。
加密詞表
如果要對詞表加密,則點(diǎn)擊工具菜單下的加密詞表;如果要解密詞表,則則點(diǎn)擊工具菜單下的解密詞表即可。
打開詞典目錄
點(diǎn)擊工具菜單下的打開詞典目錄即可。
(4)漢語頻度分析
點(diǎn)擊功能性分析下拉列表框中的漢語詞頻分析選項(xiàng),打開漢語詞頻統(tǒng)計(jì)窗口,在分詞后待統(tǒng)計(jì)詞頻文件文本框中載入分詞后的文件,如“虛擬學(xué)習(xí)團(tuán)隊(duì)2010-8-7_分詞后.txt ”,則系統(tǒng)自動載入過濾詞表,并在輸出文件文本框中生成詞頻統(tǒng)計(jì)文件“虛擬學(xué)習(xí)團(tuán)隊(duì)2010-8-7_
,分詞后_詞頻.txt ”。在歸并詞群表文本框中載入歸并詞群表,還可以對文檔中的詞進(jìn)行歸并。在保留詞表文本框中載入保留詞表,則可以將文檔中在保留詞表中的詞保留下來。
(5)社會網(wǎng)絡(luò)分析
點(diǎn)擊功能性分析下拉列表框中的社會網(wǎng)絡(luò)分析選項(xiàng),打開ROST 語義網(wǎng)絡(luò)和社會網(wǎng)絡(luò)生成工具,在待處理文本框中載入待處理文件(待處理文件可以是聊天內(nèi)容文件,全網(wǎng)分析中的摘要文件,文件格式為一行就是一句話或者一段話),然后點(diǎn)擊高頻詞按鈕,可以生成高頻詞表;點(diǎn)擊過濾無意義詞按鈕,可以生成過濾后的高頻詞和共現(xiàn)矩陣詞表;點(diǎn)擊提取行特征按鈕,可以生成行特征詞;點(diǎn)擊構(gòu)建網(wǎng)絡(luò)按鈕可以生成語義網(wǎng)絡(luò)的.VNA 文件和.txt 文件,如果進(jìn)一步點(diǎn)擊啟動NetDraw 按鈕,則可以打開NetDraw 工具,查看圖形結(jié)果;點(diǎn)擊構(gòu)建矩陣按鈕則可以生成共現(xiàn)矩陣文件。雙擊文件框可查看相應(yīng)結(jié)果。
如果想進(jìn)行快速分析,則載入待處理文件后,點(diǎn)擊“快速分析”按鈕,即可一次生成上述文件。
例如,以下是對“虛擬學(xué)習(xí)團(tuán)隊(duì)”分析的結(jié)果:
,(6)情感分析
點(diǎn)擊功能性分析下拉列表框中的情感分析選項(xiàng),在待分析文件路徑文本框中載入待分析的文件,點(diǎn)擊分析,然后雙擊各文本框,即可查看情感分析詳細(xì)結(jié)果、情感分段統(tǒng)計(jì)結(jié)果、中性情緒結(jié)果文件和情感分布統(tǒng)計(jì)視圖結(jié)果。
,(7)流量分析
點(diǎn)擊功能性分析下拉列表框中的流量分析選項(xiàng),打開Rost Alexa網(wǎng)絡(luò)流量分析工具,在輸入網(wǎng)址文本框中輸入要進(jìn)行流量分析的網(wǎng)址,點(diǎn)擊數(shù)據(jù)分析按鈕即可。
還可以在該工具中進(jìn)行批量分析,這時只需要點(diǎn)擊批量分析按鈕,導(dǎo)入需要進(jìn)行批量分析的網(wǎng)頁鏈接表,即可得到批量分析結(jié)果。一下是批量分析的一個例子:
二、 聊天分析
要分析聊天記錄,首先必須從QQ 消息管理器的導(dǎo)入導(dǎo)出菜單下的導(dǎo)出消息記錄導(dǎo)出消息的文本文件(.txt 文件), 然后點(diǎn)擊在待處理文件文本框后的…,載入要處理的消息文本文件,然后點(diǎn)擊導(dǎo)入按鈕,使之格式化,即完成用戶數(shù)據(jù)的整理。然后再點(diǎn)擊分析按鈕,進(jìn)行分析。分析完成后,可點(diǎn)擊分析框中的發(fā)言頻度文件、口頭禪文件、總
,詞頻文件和聊天內(nèi)容文件超鏈接,查看相應(yīng)結(jié)果。
啟動情感分析模塊,載入格式化后的聊天記錄文件(不是剛剛導(dǎo)出的聊天記錄原始文件),點(diǎn)擊分析按鈕,還可得到情感分析詳細(xì)結(jié)果、情感分段統(tǒng)計(jì)結(jié)果、中性情緒結(jié)果文件和情感分布統(tǒng)計(jì)視圖等情感分析結(jié)果。
三、全網(wǎng)分析
在輸入搜索詞文本框中輸入要搜索的關(guān)鍵詞,點(diǎn)擊搜索按鈕,則搜索引擎根據(jù)該關(guān)鍵詞搜索并返回的所有網(wǎng)頁結(jié)果默認(rèn)存放在程序目錄下的data 目錄下的fullweb 目錄中,類似這樣命名: 虛擬學(xué)習(xí)團(tuán)隊(duì)2010-8-7.txt 。雙擊輸出文件文本框,即可查看結(jié)果。也可以進(jìn)一步點(diǎn)擊分析按鈕,待分析完畢,即可分別點(diǎn)擊相關(guān)詞頻表、網(wǎng)頁鏈接表、域名表和摘要超鏈接,查看相應(yīng)結(jié)果。該結(jié)果也默認(rèn)存放在上述目錄中。
通過搜索引擎得到的全網(wǎng)數(shù)據(jù)還可做以下分析:
(1)全網(wǎng)數(shù)據(jù)中的摘要或標(biāo)題數(shù)據(jù)中的詞語、機(jī)構(gòu)的共現(xiàn)關(guān)系。方法是在社會網(wǎng)絡(luò)分析工具中載入全網(wǎng)分析結(jié)果的摘要文件,點(diǎn)擊“快速分析”按鈕,即可雙擊文件框查看結(jié)果,或啟動NetDraw 查看圖形結(jié)果。
(2)情感分析。只需要將全網(wǎng)數(shù)據(jù)中的摘要數(shù)據(jù)載入情感分析工具,點(diǎn)擊分析按鈕即可。
(3)域名的批量流量分析。只需將網(wǎng)頁鏈接表載入到流量分析模塊中,即可進(jìn)行該網(wǎng)頁鏈接表對應(yīng)的域名批量流量分析。
,(4)將網(wǎng)址列表載入到迅雷中進(jìn)行下載。
四、網(wǎng)站分析
(1)獲得網(wǎng)站數(shù)據(jù)
有兩種方法獲得網(wǎng)站數(shù)據(jù),一是直接啟動網(wǎng)站抓取,抓取下來的網(wǎng)頁保存在程序目錄的datawebsite網(wǎng)站名webPage目錄下。
另一個獲得網(wǎng)站數(shù)據(jù)的方法是啟動高級網(wǎng)站抓取功能,即啟動Rost WebSpider 抓取工具,如下圖。
在文件菜單下點(diǎn)擊新建任務(wù)菜單項(xiàng),打開新建任務(wù)窗口,該窗口包含地址設(shè)置、連接設(shè)置、文件類型和內(nèi)容設(shè)置4個選項(xiàng)卡。如果進(jìn)行地址設(shè)置,則點(diǎn)擊地址設(shè)置選項(xiàng)卡,輸入任務(wù)名稱,如果是整站下載,則點(diǎn)擊整站下載選項(xiàng)卡,輸入網(wǎng)站入口URL ;如果是指定URL 下載,則點(diǎn)擊指定URL 下載選項(xiàng)卡,并將要下載的URL 添加到URL 列表中;如果是指定目錄下載,則點(diǎn)擊指定目錄下載選項(xiàng)卡,輸入入口URL ;最后點(diǎn)擊跨站下載選項(xiàng)卡,并添加URL 入口或從文件導(dǎo)入URL
,到URL 入口列表中即可。
注意為了將下載的網(wǎng)站數(shù)據(jù)放到指定的位置,可以點(diǎn)擊設(shè)置菜單項(xiàng)的設(shè)置任務(wù)文件夾菜單項(xiàng),設(shè)置存放網(wǎng)站數(shù)據(jù)的位置。
如果進(jìn)行連接設(shè)置,則點(diǎn)擊連接設(shè)置選項(xiàng)卡,即可對下載的線程數(shù)、連接超時時間、抓取網(wǎng)頁最大深度、URL 隊(duì)列為空時線程等待時間、兩個連接之間的停頓時間、以及超鏈接的最大長度進(jìn)行設(shè)置。此外還可以選擇是否同一TCP 連接要抓取多個網(wǎng)頁。
如果要對下載的文件類型進(jìn)行設(shè)置,則點(diǎn)擊文件類型選項(xiàng)卡,對允許下載的文件類型進(jìn)行設(shè)置。
還可以對下載的內(nèi)容進(jìn)行限制。點(diǎn)擊內(nèi)容限制選項(xiàng)卡,可以限制下載包含某些域名的網(wǎng)頁、包含某些文件擴(kuò)展名的網(wǎng)頁或指定鏈接需要包含的字符串。
此外,在任務(wù)查看器中可以進(jìn)行下載監(jiān)控、查看更新報告、查看文件、任務(wù)和事件。
(2)分析
點(diǎn)擊分析按鈕對抓取的網(wǎng)頁文件即可做進(jìn)一步的分析,生成網(wǎng)頁的文本文件和全站合并文件。點(diǎn)擊分析框中的網(wǎng)頁的文本文件和全站合并文件超鏈接,即可查看結(jié)果。這些結(jié)果分別默認(rèn)存放在datawebsite網(wǎng)站名webPageanalysis目錄下。
五、瀏覽分析
首先點(diǎn)擊獲得歷史瀏覽數(shù)據(jù)按鈕,然后點(diǎn)擊分析按鈕,即可得到分析結(jié)果。點(diǎn)擊標(biāo)題文件、URL 文件和標(biāo)題詞頻文件超鏈接,即可查
,看結(jié)果。
點(diǎn)擊獲得實(shí)時閱讀數(shù)據(jù)按鈕,打開ROST 實(shí)時瀏覽數(shù)據(jù)抓取工具,即可獲得實(shí)時閱讀數(shù)據(jù)。