flume監(jiān)控數(shù)據(jù)庫批量導(dǎo)入 實時數(shù)據(jù)倉庫如何做?
實時數(shù)據(jù)倉庫如何做?謝謝邀請我。要想知道實時數(shù)據(jù)倉庫怎么做,首先要知道為什么要用實時數(shù)據(jù)倉庫,也就是說要明白要求我們做實時數(shù)據(jù)倉庫的價值,不管是公司還是企業(yè)。目前大部分?jǐn)?shù)據(jù)倉庫都是T 1離線分析數(shù)據(jù),
實時數(shù)據(jù)倉庫如何做?
謝謝邀請我。
要想知道實時數(shù)據(jù)倉庫怎么做,首先要知道為什么要用實時數(shù)據(jù)倉庫,也就是說要明白要求我們做實時數(shù)據(jù)倉庫的價值,不管是公司還是企業(yè)。
目前大部分?jǐn)?shù)據(jù)倉庫都是T 1離線分析數(shù)據(jù),也就是運營商看昨天 s數(shù)據(jù)今天報告,客戶為店鋪或商品做活動,想看當(dāng)前活動效果,只能等到明天查數(shù)據(jù)。阿里每年雙11都是在幾分鐘內(nèi)完成上億筆交易。他們更想了解的是雙11這個活動帶來的實際收益,最新的訂單和銷量。
實時數(shù)據(jù)倉庫應(yīng)該做什么?
1.隨著人們對數(shù)據(jù)時效性要求的不斷提高,實時計算應(yīng)運而生。常見的開源實時計算框架有storm、s4、spark等。所有使用過storm開發(fā)實時需求的朋友都知道,storm無論是從開發(fā)難度還是執(zhí)行效率來說,都是相當(dāng)擅長處理單個數(shù)據(jù)流的,即使有很多類似的任務(wù)要運行。
2.實時通用寬表常用于實時需求,大量的實時需求會在通用層進(jìn)行計算和實現(xiàn)。一般的做法是ODS -詳情表-總寬表-匯總表-應(yīng)用層。
3.另外,實時數(shù)據(jù)倉庫比線下倉庫盤點對實時性要求更高,做實時數(shù)據(jù)倉庫要注意縮短數(shù)據(jù)流,簡化數(shù)據(jù)層次,合并ods和sch
hadoop是一種什么技術(shù)?
Hadoop是一個軟件框架,可以分布式處理大量數(shù)據(jù)。用戶可以在Hadoop上輕松開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用,充分利用集群的力量進(jìn)行高速計算和存儲。
如何使用Hadoop:
Hadoop集群的構(gòu)建
簡單來說,就是把Hadoop安裝包放在每臺服務(wù)器上,更改配置后再啟動,就完成了Hadoop集群的構(gòu)建。
將文件上傳到Hadoop集群
Hadoop集群搭建完成后,可以通過網(wǎng)頁查看集群的情況,也可以訪問。通過Hadoop命令上傳文件到hdfs集群,通過Hadoop命令在hdfs集群上建立目錄,通過Hadoop命令刪除集群上的文件等等。
編寫map/reduce程序
通過集成開發(fā)工具(如eclipse)導(dǎo)入Hadoop相關(guān)的jar包,編寫map/reduce程序,將程序做成jar包扔在集群上執(zhí)行,運行后輸出計算結(jié)果。
hadoop生態(tài)系統(tǒng)中各組件的功能描述:
① hdfs:一個文件系統(tǒng),可以存儲海量數(shù)據(jù)。
② mapreduce:通過一定的算法從海量數(shù)據(jù)中計算出有用的信息。
③ hive:是sql語句解釋器,接收用戶輸入的sql語句,然后將sql語句翻譯成復(fù)雜的mapreduce程序,發(fā)布到mr集群進(jìn)行運算,計算出有用的信息。
④ hbase:是基于hdfs文件系統(tǒng)的數(shù)據(jù)庫。
⑤ flume:就是從一個文件中提取數(shù)據(jù)到另一個文件中。
⑥ sqoop:將hdfs文件系統(tǒng)的文件導(dǎo)出到linux文件系統(tǒng)的文件。
⑦ ooize/azkaban:該組件負(fù)責(zé)協(xié)調(diào)各個任務(wù)的執(zhí)行順序。