大數(shù)據(jù)分析一般用什么工具分析?
網(wǎng)友解答: 大數(shù)據(jù)分析工具有很多,不過(guò)絕大多數(shù)是自己開(kāi)發(fā),或在某工具上進(jìn)行二次開(kāi)發(fā)。大數(shù)據(jù)業(yè)務(wù)有很多環(huán)節(jié),大致為:1. 數(shù)據(jù)搜集:借助工具對(duì)研究對(duì)象進(jìn)行數(shù)據(jù)采集,可以是人工采集——如街頭
大數(shù)據(jù)分析工具有很多,不過(guò)絕大多數(shù)是自己開(kāi)發(fā),或在某工具上進(jìn)行二次開(kāi)發(fā)。
大數(shù)據(jù)業(yè)務(wù)有很多環(huán)節(jié),大致為:
1. 數(shù)據(jù)搜集:借助工具對(duì)研究對(duì)象進(jìn)行數(shù)據(jù)采集,可以是人工采集——如街頭調(diào)查、電話采訪、現(xiàn)場(chǎng)統(tǒng)計(jì)……,也可以是軟件采集——如網(wǎng)絡(luò)爬蟲(chóng)、GPS軌跡、企業(yè)ERP歷史數(shù)據(jù)……;
2. 數(shù)據(jù)清洗:對(duì)采集到的數(shù)據(jù)按研究?jī)r(jià)值進(jìn)行整理和歸類,如:那些數(shù)據(jù)是無(wú)效數(shù)據(jù),那的數(shù)據(jù)是被污染(被刻意篡改)……將這些數(shù)據(jù)剔除,減少干擾。數(shù)據(jù)清洗的工具同樣也有人工和軟件,甚至同時(shí)使用。
3. 數(shù)據(jù)加工:對(duì)清洗后的數(shù)據(jù)按研究意圖進(jìn)行整理和歸類,如價(jià)格(將出廠價(jià)、零售價(jià)、批發(fā)價(jià)、開(kāi)票價(jià)、稅率、促銷價(jià)等價(jià)格信息進(jìn)行歸類)、品種(按顏色、行業(yè)規(guī)格、適用環(huán)境、質(zhì)地等進(jìn)行歸類)、日期(將年齡、生日、期間起始日期、庫(kù)齡等日期相關(guān)的歸類)……
4. 數(shù)據(jù)統(tǒng)計(jì):對(duì)加工過(guò)的數(shù)據(jù)進(jìn)行預(yù)測(cè),發(fā)現(xiàn)數(shù)據(jù)規(guī)律。對(duì)加工過(guò)的數(shù)據(jù)進(jìn)行人工抽樣(小樣本),借助簡(jiǎn)單的工具來(lái)發(fā)現(xiàn)一些規(guī)律,尋找一些蛛絲馬跡,建立數(shù)學(xué)統(tǒng)計(jì)模型和分析算法。
5. 大數(shù)據(jù)分析:對(duì)原始數(shù)據(jù)(或加工過(guò)的數(shù)據(jù)),通過(guò)第4步建立的分析算法,進(jìn)行“大數(shù)據(jù)”自動(dòng)分析,分析過(guò)程中,還需要不斷修正算法,可能重新回到上述第3步,將原算法推倒從重來(lái)。
——結(jié)論——
大數(shù)據(jù)分析是一個(gè)系統(tǒng)工程,是對(duì)某種社會(huì)行為和自然現(xiàn)象(如購(gòu)物、交易、人流、設(shè)備運(yùn)轉(zhuǎn)、輿情、氣候等)進(jìn)行分析,需要分析人員掌握很多綜合知識(shí),然后借助計(jì)算機(jī)的運(yùn)算能力,幫助分析。
從題主的提問(wèn)來(lái)揣測(cè),可能題主認(rèn)為大數(shù)據(jù)就是計(jì)算機(jī)行業(yè),其實(shí)不然。大數(shù)據(jù)分析人員的知識(shí)結(jié)構(gòu)大致為:非計(jì)算機(jī)知識(shí)占80%,計(jì)算機(jī)使用能力占20%,同時(shí)還要隨時(shí)跟上計(jì)算機(jī)工具的版本更新或更迭。
最后,回答本提問(wèn),大數(shù)據(jù)分析的工具有很多,手工算、算盤(pán),excel,microsoft PowerBI,python中的很多模塊,mssql,mysql……那個(gè)順手用那個(gè),那個(gè)適合業(yè)務(wù)需要用那個(gè),目前沒(méi)有“最好”,也沒(méi)有“行業(yè)慣例”,自己選擇自己習(xí)慣的吧。
網(wǎng)友解答:Hadoop
Hadoop是一個(gè)能對(duì)大數(shù)據(jù)進(jìn)行分布式處理的軟件框架。能夠處理PB級(jí)的數(shù)據(jù),依賴于社區(qū)服務(wù)器,成本較低,有著高可靠性,高擴(kuò)展性,高效性,高容錯(cuò)性等優(yōu)點(diǎn)。
Stormstorm是自由的開(kāi)源軟件,分布式,容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng),可以可靠的處理龐大的數(shù)據(jù)流,支持多種編程語(yǔ)言,應(yīng)用在多個(gè)領(lǐng)域,比如實(shí)時(shí)分析,在線機(jī)器學(xué)習(xí),不停頓計(jì)算等等
Excel這個(gè)不多說(shuō)。