java是什么 數(shù)據(jù)處理(ETL)和java開(kāi)發(fā)職位選哪個(gè)?
數(shù)據(jù)處理(ETL)和java開(kāi)發(fā)職位選哪個(gè)?因此,如果您喜歡數(shù)據(jù)處理,請(qǐng)選擇數(shù)據(jù)處理。如果你想用Java編程,沒(méi)關(guān)系。關(guān)鍵是找出哪一個(gè)適合你,選擇最適合你的。etl如何實(shí)現(xiàn)業(yè)務(wù)原系統(tǒng)數(shù)據(jù)接入?數(shù)據(jù)增量
數(shù)據(jù)處理(ETL)和java開(kāi)發(fā)職位選哪個(gè)?
因此,如果您喜歡數(shù)據(jù)處理,請(qǐng)選擇數(shù)據(jù)處理。如果你想用Java編程,沒(méi)關(guān)系。關(guān)鍵是找出哪一個(gè)適合你,選擇最適合你的。
etl如何實(shí)現(xiàn)業(yè)務(wù)原系統(tǒng)數(shù)據(jù)接入?數(shù)據(jù)增量全量抽取有幾種方案?
我們現(xiàn)在做的項(xiàng)目對(duì)ETL很有用。
項(xiàng)目剛成立兩三個(gè)月。目前,我指揮著四個(gè)人。明年,我們計(jì)劃再增加四個(gè)人?,F(xiàn)在,兩個(gè)人在做ETL數(shù)據(jù)提取,兩個(gè)人在做Java,我的戰(zhàn)斗力可以算作三個(gè)人在做Java。
為什么要單獨(dú)提取數(shù)據(jù)?
系統(tǒng)現(xiàn)在有大量的查詢,這些查詢是實(shí)時(shí)查詢。有些查詢涉及幾十個(gè)表的關(guān)聯(lián),這些表少了幾千萬(wàn),大了幾億,所以有些接口的返回速度非常慢。
我們整理出一些可以接受T1的接口,提取相關(guān)數(shù)據(jù),處理一次,把幾十個(gè)表的數(shù)據(jù)處理成一個(gè)完整的數(shù)據(jù),保存在mongodb中,然后提供接口服務(wù)。
以前,界面需要幾秒鐘才能返回,有些甚至需要十幾秒鐘?,F(xiàn)在,對(duì)于500個(gè)并發(fā)應(yīng)用程序,它基本上可以在100毫秒內(nèi)返回。
有沒(méi)有擴(kuò)展性較好的ETL產(chǎn)品?
讓我介紹一下我知道的常見(jiàn)ETL工具:dataX、Datastage、Informatica、kettle和datapipeline。
阿里巴巴開(kāi)源軟件:dataX
dataX是一款針對(duì)異構(gòu)數(shù)據(jù)源的離線同步工具。致力于實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)(mysql、Oracle等)、HDFS、hive、ODPs、HBase、FTP等異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步
Kettle開(kāi)源軟件:Kettle(中文名)
Kettle是國(guó)外開(kāi)源ETL工具,純Java編寫(xiě),可以在windows上運(yùn)行,Linux和UNIX,具有良好的可擴(kuò)展性和高效穩(wěn)定的數(shù)據(jù)抽取。主從結(jié)構(gòu),無(wú)高可用性。它不支持?jǐn)?shù)據(jù)的實(shí)時(shí)同步,也不支持?jǐn)帱c(diǎn)續(xù)航。
IBM商務(wù)軟件:Datastage
最專業(yè)的商務(wù)ETL工具,價(jià)格比較貴,但處理速度也能在大數(shù)據(jù)量下保持較快的處理速度和穩(wěn)定性。實(shí)時(shí)監(jiān)控也很不錯(cuò),可以看到數(shù)據(jù)提取的情況,運(yùn)行到哪一步,很直觀。強(qiáng)大的售后技術(shù)支持。
商務(wù)軟件:Informatica
專業(yè)ETL工具,價(jià)格比Datastage便宜一點(diǎn),需要安裝服務(wù)器和客戶端,處理速度與Datastage相同。分布式部署,支持實(shí)時(shí)性,但效率不高。技術(shù)支持主要在美國(guó),所以在中國(guó)使用較少。
國(guó)產(chǎn):datapipeline
國(guó)產(chǎn)充電工具,與dataX相比,datapipeline具有可視化的過(guò)程監(jiān)控,提供多樣化的圖標(biāo)、輔助操作和維護(hù),以及故障問(wèn)題的實(shí)時(shí)報(bào)警。DataX需要依賴工具日志來(lái)定位故障問(wèn)題。支持實(shí)時(shí),dataX是定時(shí)的。支持?jǐn)帱c(diǎn)延續(xù),但dataX不支持。體系結(jié)構(gòu)也是分布式的,支持水平擴(kuò)展。
水壺是一個(gè)小的數(shù)據(jù)要求,它唯一的優(yōu)勢(shì)是免費(fèi)的
1。沒(méi)有過(guò)程管理。當(dāng)表被鎖定時(shí),很難找到原因,并且無(wú)法終止進(jìn)程,也無(wú)法控制最大進(jìn)程數(shù)。
2. 數(shù)據(jù)抽取不能自動(dòng)分包,也沒(méi)有像ABAP這樣高效的查詢語(yǔ)句,比如select from。。所有入口都在。。大數(shù)據(jù)處理速度很慢,大量數(shù)據(jù)的日常處理無(wú)法完成。
3. 無(wú)法自動(dòng)處理指定字段的增量。
4. 無(wú)法調(diào)試,調(diào)試將不提取數(shù)據(jù)。
5. 在計(jì)劃處理鏈中指定命令非常麻煩。沒(méi)有接口操作。處理鏈中有錯(cuò)誤。無(wú)法繼續(xù)運(yùn)行或跳過(guò)處理。
6. 無(wú)法記錄每個(gè)處理詳細(xì)信息并記錄處理時(shí)間。
7. 無(wú)法共享字段。字段不關(guān)聯(lián)本位幣單位,沒(méi)有基礎(chǔ)資料字段的概念。
8. 沒(méi)有包處理的概念,沒(méi)有日志處理。
9. 沒(méi)有版本控制,聯(lián)機(jī)不是傳輸。
10. 另外,沒(méi)有外部發(fā)布WS、OData接口函數(shù)
更不用說(shuō)報(bào)表函數(shù),權(quán)限控制功能不強(qiáng),底層數(shù)據(jù)庫(kù)也不是多維信息立方體結(jié)構(gòu),字段也不區(qū)分指標(biāo)和特征。。。。。
ETL工具,Kettle和DataStage各自有什么優(yōu)缺點(diǎn),目前哪個(gè)更流行一些?
兩個(gè)工程師的發(fā)展方向不同,主要集中在不同的方向:[ETL工程師,主要技術(shù)發(fā)展方向集中在數(shù)據(jù)庫(kù),或者海量數(shù)據(jù)處理方向,未來(lái)可以發(fā)展到數(shù)據(jù)庫(kù)開(kāi)發(fā)工程師、數(shù)據(jù)庫(kù)架構(gòu)師、數(shù)據(jù)分析師等
Java工程師,主要側(cè)重于軟件開(kāi)發(fā)方向,即編程,也可以逐步發(fā)展為高級(jí)程序員、系統(tǒng)架構(gòu)師等
但開(kāi)發(fā)不是絕對(duì)的。這主要取決于個(gè)人的機(jī)會(huì)和發(fā)展環(huán)境。我們不能說(shuō)哪個(gè)好,哪個(gè)不好。