常用的etl工具 為什么建數(shù)據(jù)倉(cāng)庫(kù)需要使用ETL工具?
為什么建數(shù)據(jù)倉(cāng)庫(kù)需要使用ETL工具?數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)戰(zhàn)略集合,為各級(jí)決策過(guò)程提供各種數(shù)據(jù)支持。它是為分析報(bào)告和決策支持目的而創(chuàng)建的單個(gè)數(shù)據(jù)存儲(chǔ)。由于要獲取所有的數(shù)據(jù),必然涉及到多系統(tǒng)、多類(lèi)型數(shù)據(jù)庫(kù)的對(duì)接
為什么建數(shù)據(jù)倉(cāng)庫(kù)需要使用ETL工具?
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)戰(zhàn)略集合,為各級(jí)決策過(guò)程提供各種數(shù)據(jù)支持。它是為分析報(bào)告和決策支持目的而創(chuàng)建的單個(gè)數(shù)據(jù)存儲(chǔ)。由于要獲取所有的數(shù)據(jù),必然涉及到多系統(tǒng)、多類(lèi)型數(shù)據(jù)庫(kù)的對(duì)接問(wèn)題,以及數(shù)據(jù)的提取和整理問(wèn)題。
此時(shí),ETL工具的功能體現(xiàn)在數(shù)據(jù)提取、轉(zhuǎn)換和加載的過(guò)程中,直至用于人們的分析。ETL是數(shù)據(jù)抽取、轉(zhuǎn)換和加載的過(guò)程。
在某些地方,可以先在轉(zhuǎn)換中選擇和加載ELT。對(duì)于日志倉(cāng)庫(kù),ETL首先要考慮業(yè)務(wù)需求,最后數(shù)據(jù)登陸模型要體現(xiàn)一定的主題。
一般來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)就像一個(gè)大的池。水池的供水需要水泵和水管,ETL負(fù)責(zé)水泵和水管的功能。
大數(shù)據(jù)ETL工程師是做什么的,發(fā)展前景如何?
ETL工程師是大數(shù)據(jù)倉(cāng)庫(kù)方向的一個(gè)職位,主要從事數(shù)據(jù)清洗、提取和轉(zhuǎn)換。目前,Hadoop的HDFS主要用作存儲(chǔ)平臺(tái),hive用作數(shù)據(jù)建模、清洗和結(jié)構(gòu)化數(shù)據(jù)分析,并使用工具或腳本將數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)節(jié)點(diǎn),作為后續(xù)部門(mén)的結(jié)果數(shù)據(jù)。
一般的工作應(yīng)該是通過(guò)hivesql、shell腳本或oozie等作業(yè)相關(guān)工具進(jìn)行數(shù)據(jù)分析和統(tǒng)計(jì),用于任務(wù)周期調(diào)度
還有很大的發(fā)展空間,用SQL實(shí)現(xiàn)業(yè)務(wù)可以鍛煉思維邏輯,增加工作經(jīng)驗(yàn),后續(xù)可以做數(shù)據(jù)建模工程師,可以指導(dǎo)戰(zhàn)士做日常的發(fā)展,而且薪水很不錯(cuò)
1。Hadoop
Hadoop是一個(gè)可以分布式處理大量數(shù)據(jù)的軟件框架。但是Hadoop是以可靠、高效和可伸縮的方式處理的。另外,Hadoop依賴于社區(qū)服務(wù)器,所以它的成本相對(duì)較低,任何人都可以使用它。
2、SPSS統(tǒng)計(jì)軟件
它使用Windows窗口模式顯示各種數(shù)據(jù)管理和分析方法的功能,并使用對(duì)話框顯示各種功能選項(xiàng)。只要掌握一定的windows操作技巧,了解統(tǒng)計(jì)分析的原理,就可以利用該軟件進(jìn)行各種數(shù)據(jù)分析,為實(shí)際工作服務(wù)。
3、Stata統(tǒng)計(jì)軟件由計(jì)算機(jī)資源中心于1985年開(kāi)發(fā)。它具有指令操作、程序容量小、統(tǒng)計(jì)分析方法完備、計(jì)算結(jié)果輸出形式簡(jiǎn)單、圖形精美等特點(diǎn)。缺點(diǎn)是數(shù)據(jù)兼容性差,存儲(chǔ)空間大,數(shù)據(jù)管理功能有待加強(qiáng)。
4、Excel電子表格及統(tǒng)計(jì)功能
Excel電子表格是微軟公司推出的office系列產(chǎn)品之一,是一款功能強(qiáng)大的電子表格軟件。具有強(qiáng)大的表格管理和統(tǒng)計(jì)制表功能,操作方便。Excel的數(shù)據(jù)分析插件Xlstat也可以進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,但缺點(diǎn)是運(yùn)算速度慢,統(tǒng)計(jì)方法不完整。
5、SAS統(tǒng)計(jì)軟件]SAS系統(tǒng)是一個(gè)具有30多個(gè)功能模塊的模塊化軟件系統(tǒng)。SAS是用匯編語(yǔ)言編寫(xiě)的,通常使用SAS需要編寫(xiě)程序,這更適合統(tǒng)計(jì)專業(yè)人員,但非統(tǒng)計(jì)專業(yè)人員學(xué)習(xí)SAS比較困難。SAS具有比較完整的數(shù)據(jù)訪問(wèn)、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)表示等一系列功能。尤其是其首創(chuàng)產(chǎn)品統(tǒng)計(jì)分析系統(tǒng),由于其強(qiáng)大的數(shù)據(jù)分析能力,一直是業(yè)界著名的應(yīng)用軟件。在數(shù)據(jù)處理方法和統(tǒng)計(jì)分析領(lǐng)域,被譽(yù)為國(guó)際標(biāo)準(zhǔn)軟件和最權(quán)威的優(yōu)秀統(tǒng)計(jì)軟件包。SAS系統(tǒng)提供的主要分析功能包括統(tǒng)計(jì)分析、計(jì)量經(jīng)濟(jì)分析、統(tǒng)計(jì)分析、時(shí)間序列分析、決策分析、財(cái)務(wù)分析和全面質(zhì)量管理等統(tǒng)計(jì)分析工具。