mongodb 分片后查詢數(shù)據(jù)不準(zhǔn)確 數(shù)據(jù)處理的基本過(guò)程是哪四個(gè)
數(shù)據(jù)處理的基本過(guò)程是哪四個(gè)具體看的大數(shù)據(jù)處理方法確實(shí)是有很多,可是據(jù)筆者長(zhǎng)時(shí)間的實(shí)踐,學(xué)習(xí)總結(jié)了一個(gè)比較高適用的大數(shù)據(jù)處理流程,而且這個(gè)流程應(yīng)該是都能夠?qū)Υ蠹谊P(guān)系理順大數(shù)據(jù)的處理所幫助。整個(gè)處理流程可
數(shù)據(jù)處理的基本過(guò)程是哪四個(gè)
具體看的大數(shù)據(jù)處理方法確實(shí)是有很多,可是據(jù)筆者長(zhǎng)時(shí)間的實(shí)踐,學(xué)習(xí)總結(jié)了一個(gè)比較高適用的大數(shù)據(jù)處理流程,而且這個(gè)流程應(yīng)該是都能夠?qū)Υ蠹谊P(guān)系理順大數(shù)據(jù)的處理所幫助。整個(gè)處理流程可以簡(jiǎn)要概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,之后是數(shù)據(jù)挖掘。
大數(shù)據(jù)處理之一:哪采
大數(shù)據(jù)的采集是指依靠多個(gè)數(shù)據(jù)庫(kù)來(lái)接收內(nèi)心的微笑客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),但是用戶這個(gè)可以是從這些數(shù)據(jù)庫(kù)來(lái)并且簡(jiǎn)單網(wǎng)站查詢和處理工作。.例如,電商會(huì)使用悠久的傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常應(yīng)用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,是因?yàn)榱硗庥锌赡軙?huì)有成千上萬(wàn)的用戶來(lái)并且訪問(wèn)和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)提升到上百萬(wàn),因此必須在采集端布署大量數(shù)據(jù)庫(kù)才能勉力支撐。另外要如何在這些數(shù)據(jù)庫(kù)之間并且負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
大數(shù)據(jù)怎么做?
1.大數(shù)據(jù)處理之一:喂養(yǎng)靈獸
大數(shù)據(jù)的采集是指憑借多個(gè)數(shù)據(jù)庫(kù)來(lái)可以接收打動(dòng)心靈客戶端(Web、App也可以傳感器形式等)的數(shù)據(jù),而且用戶可以實(shí)際這些數(shù)據(jù)庫(kù)來(lái)通過(guò)簡(jiǎn)單點(diǎn)網(wǎng)站查詢和處理工作。例如,電商會(huì)不使用現(xiàn)代的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常主要用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,畢竟同時(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)接受訪問(wèn)和操作,比如說(shuō)火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)都沒有達(dá)到上百萬(wàn),所以我不需要在再采集端部署大量數(shù)據(jù)庫(kù)才能勉強(qiáng)支撐。另外要如何在這些數(shù)據(jù)庫(kù)之間接受負(fù)載均衡和分片雖然是不需要深刻的思考和設(shè)計(jì)。
2.大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理
可是采藥端本身會(huì)有很多數(shù)據(jù)庫(kù),但要是要對(duì)這些海量數(shù)據(jù)進(jìn)行最有效的分析,應(yīng)該估計(jì)將這些不知從何而來(lái)前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的小型分布式數(shù)據(jù)庫(kù),或是分布式存儲(chǔ)集群,而且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單刷洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)通過(guò)流式計(jì)算,來(lái)滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。
導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量你經(jīng)常會(huì)達(dá)到百兆,甚至還千兆級(jí)別。
3.大數(shù)據(jù)處理之三:統(tǒng)計(jì)數(shù)據(jù)/總結(jié)
統(tǒng)計(jì)與分析要注意利用分布式數(shù)據(jù)庫(kù),或是分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于虛空中的海量數(shù)據(jù)進(jìn)行大多數(shù)的分析和分類匯總等,以行最簡(jiǎn)形矩陣大多數(shù)最常見的一種的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)會(huì)用到EMC的GreenPlum、Oracle的Exadata,在內(nèi)實(shí)現(xiàn)MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于條件半結(jié)構(gòu)化數(shù)據(jù)的需求也可以在用Hadoop。
統(tǒng)計(jì)與分析什么這部分的主要特點(diǎn)和挑戰(zhàn)是分析不屬于的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
4.大數(shù)據(jù)處理之四:開掘
與前面統(tǒng)計(jì)和分析過(guò)程相同的是,數(shù)據(jù)挖掘就像沒有什么事前設(shè)定好好的主題,主要是在超過(guò)數(shù)據(jù)上面參與設(shè)計(jì)和實(shí)現(xiàn)各種算法的計(jì)算,使發(fā)揮作用預(yù)測(cè)國(guó)家(Predict)的效果,進(jìn)而實(shí)現(xiàn)方法一些高級(jí)別數(shù)據(jù)分析的需求。也很典型算法有作用于聚類的Kmeans、主要用于統(tǒng)計(jì)計(jì)算去學(xué)習(xí)的SVM和應(yīng)用于分類的NaiveBayes,主要注意可以使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)通常是主要是用于挖掘的算法很古怪,并且換算牽涉的數(shù)據(jù)量和計(jì)算量都太大,具體用法數(shù)據(jù)挖掘算法都以單線程。