mongodb 分片后查詢數(shù)據(jù)不準(zhǔn)確 數(shù)據(jù)處理的基本過程是哪四個
數(shù)據(jù)處理的基本過程是哪四個具體看的大數(shù)據(jù)處理方法確實是有很多,可是據(jù)筆者長時間的實踐,學(xué)習(xí)總結(jié)了一個比較高適用的大數(shù)據(jù)處理流程,而且這個流程應(yīng)該是都能夠?qū)Υ蠹谊P(guān)系理順大數(shù)據(jù)的處理所幫助。整個處理流程可
數(shù)據(jù)處理的基本過程是哪四個
具體看的大數(shù)據(jù)處理方法確實是有很多,可是據(jù)筆者長時間的實踐,學(xué)習(xí)總結(jié)了一個比較高適用的大數(shù)據(jù)處理流程,而且這個流程應(yīng)該是都能夠?qū)Υ蠹谊P(guān)系理順大數(shù)據(jù)的處理所幫助。整個處理流程可以簡要概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計和分析,之后是數(shù)據(jù)挖掘。
大數(shù)據(jù)處理之一:哪采
大數(shù)據(jù)的采集是指依靠多個數(shù)據(jù)庫來接收內(nèi)心的微笑客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),但是用戶這個可以是從這些數(shù)據(jù)庫來并且簡單網(wǎng)站查詢和處理工作。.例如,電商會使用悠久的傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常應(yīng)用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,是因為另外有可能會有成千上萬的用戶來并且訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時提升到上百萬,因此必須在采集端布署大量數(shù)據(jù)庫才能勉力支撐。另外要如何在這些數(shù)據(jù)庫之間并且負(fù)載均衡和分片的確是需要深入的思考和設(shè)計。
大數(shù)據(jù)怎么做?
1.大數(shù)據(jù)處理之一:喂養(yǎng)靈獸
大數(shù)據(jù)的采集是指憑借多個數(shù)據(jù)庫來可以接收打動心靈客戶端(Web、App也可以傳感器形式等)的數(shù)據(jù),而且用戶可以實際這些數(shù)據(jù)庫來通過簡單點(diǎn)網(wǎng)站查詢和處理工作。例如,電商會不使用現(xiàn)代的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常主要用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,畢竟同時有可能會有成千上萬的用戶來接受訪問和操作,比如說火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時都沒有達(dá)到上百萬,所以我不需要在再采集端部署大量數(shù)據(jù)庫才能勉強(qiáng)支撐。另外要如何在這些數(shù)據(jù)庫之間接受負(fù)載均衡和分片雖然是不需要深刻的思考和設(shè)計。
2.大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理
可是采藥端本身會有很多數(shù)據(jù)庫,但要是要對這些海量數(shù)據(jù)進(jìn)行最有效的分析,應(yīng)該估計將這些不知從何而來前端的數(shù)據(jù)導(dǎo)入到一個集中的小型分布式數(shù)據(jù)庫,或是分布式存儲集群,而且可以在導(dǎo)入基礎(chǔ)上做一些簡單刷洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)通過流式計算,來滿足部分業(yè)務(wù)的實時計算需求。
導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量你經(jīng)常會達(dá)到百兆,甚至還千兆級別。
3.大數(shù)據(jù)處理之三:統(tǒng)計數(shù)據(jù)/總結(jié)
統(tǒng)計與分析要注意利用分布式數(shù)據(jù)庫,或是分布式計算集群來對存儲于虛空中的海量數(shù)據(jù)進(jìn)行大多數(shù)的分析和分類匯總等,以行最簡形矩陣大多數(shù)最常見的一種的分析需求,在這方面,一些實時性需求會會用到EMC的GreenPlum、Oracle的Exadata,在內(nèi)實現(xiàn)MySQL的列式存儲Infobright等,而一些批處理,或者基于條件半結(jié)構(gòu)化數(shù)據(jù)的需求也可以在用Hadoop。
統(tǒng)計與分析什么這部分的主要特點(diǎn)和挑戰(zhàn)是分析不屬于的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
4.大數(shù)據(jù)處理之四:開掘
與前面統(tǒng)計和分析過程相同的是,數(shù)據(jù)挖掘就像沒有什么事前設(shè)定好好的主題,主要是在超過數(shù)據(jù)上面參與設(shè)計和實現(xiàn)各種算法的計算,使發(fā)揮作用預(yù)測國家(Predict)的效果,進(jìn)而實現(xiàn)方法一些高級別數(shù)據(jù)分析的需求。也很典型算法有作用于聚類的Kmeans、主要用于統(tǒng)計計算去學(xué)習(xí)的SVM和應(yīng)用于分類的NaiveBayes,主要注意可以使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)通常是主要是用于挖掘的算法很古怪,并且換算牽涉的數(shù)據(jù)量和計算量都太大,具體用法數(shù)據(jù)挖掘算法都以單線程。