kettle如何手動輸入轉(zhuǎn)換結(jié)果 etl工程師要學(xué)什么技術(shù)?
etl工程師要學(xué)什么技術(shù)?etl工程師要學(xué)的技術(shù)要注意是:技術(shù)方面:是需要自學(xué)可以使用數(shù)據(jù)源、目標(biāo)端工具的基本上使用(如oracleMySQLhive等)必須學(xué)etl工具的安裝配置常用錯誤幫忙解決(如
etl工程師要學(xué)什么技術(shù)?
etl工程師要學(xué)的技術(shù)要注意是:
技術(shù)方面:是需要自學(xué)可以使用數(shù)據(jù)源、目標(biāo)端工具的基本上使用(如oracleMySQLhive等)必須學(xué)etl工具的安裝配置常用錯誤幫忙解決(如sinkDataStageinfasqoopdatax等)
理論方面:知道怎么樣數(shù)倉分層架構(gòu),維度建模等。
從ETL的字面來看,它要注意包含三大階段,各是數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載。
kettle是什么語言?
kettle是java語言
Kettle這個ETL工具集,它不能你管理來自相同數(shù)據(jù)庫的數(shù)據(jù),通過提供給一個圖形化的用戶環(huán)境來具體描述你你要做什么,而不是你想怎么做。
Kettle中有兩種腳本文件,transformation和job,transformation能完成根據(jù)數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,job則成功整個工作流的控制。
另外Pentaho的一個重要的是組成部分,現(xiàn)在在國內(nèi)項目應(yīng)用上漸漸地漸增
有Java經(jīng)驗想轉(zhuǎn)大數(shù)據(jù)還需要學(xué)習(xí)多久呢?有沒有好的建議呢?
當(dāng)然語言和大數(shù)據(jù)沒有直接的關(guān)系。在我的確,想直接進入大數(shù)據(jù)領(lǐng)域,語言僅僅工具,數(shù)據(jù)庫、算法、數(shù)學(xué)、統(tǒng)計學(xué)包括所在行業(yè)的專業(yè)知識才是功底。況且時間,不好說,我是用半年(開發(fā)完畢從業(yè)二十年了,各種數(shù)據(jù)庫很溜,開發(fā)語言會好幾種,垮平臺什么的更不用說,但是因為學(xué)精算師的緣故也把基礎(chǔ)課都學(xué)出來了,和高數(shù),統(tǒng)計學(xué)等)。
建議您樓主從java領(lǐng)域的開源大數(shù)據(jù)項目又開始直接介入,逐漸地清楚hadoop,盡量多的怎么學(xué)習(xí)下python,清楚redis、HDFS,學(xué)習(xí)不使用SparkHive、SparkSQL,同時建議讀下DataX或者Kettle,然后把結(jié)束學(xué)習(xí)一些機器學(xué)習(xí)的算法和開源庫如Tensorflow之類的,開發(fā)平臺的選擇看你自己的需求。
當(dāng)以上內(nèi)容基本觸類旁通了,你就是可以正在剛剛進入大數(shù)據(jù)領(lǐng)域了,首先要去采藥一些有價值的樣本數(shù)據(jù),在漸漸地學(xué)習(xí)潛近的過程中去學(xué)習(xí)機器建模,以及統(tǒng)計學(xué)原理,數(shù)論,做統(tǒng)計方法等傳統(tǒng)統(tǒng)計學(xué)的課程,統(tǒng)計數(shù)據(jù)建模是重點要先下功夫,線代微積分離散數(shù)學(xué)大都基礎(chǔ),你也不需要然后再隨手撿起來。
當(dāng)這些都學(xué)的應(yīng)該差不多了,你就擁有了采集數(shù)據(jù)分析數(shù)據(jù)的基本能力了,那樣就這個可以深入的再去學(xué)習(xí)再看看統(tǒng)計學(xué)的一些深層次課程和比較傳統(tǒng)BI的一些課程了。
當(dāng)你應(yīng)具備了這些能力,你就具備了一個合格的大數(shù)據(jù)分析師的水平了!
恭喜啊,高薪在向你揮了揮手。[微笑]