java是什么數(shù)據(jù)處理（ETL）和java開(kāi)發(fā)職位選哪個(gè)？

2021-04-09

2156

數(shù)據(jù)處理（ETL）和java開(kāi)發(fā)職位選哪個(gè)？因此，如果您喜歡數(shù)據(jù)處理，請(qǐng)選擇數(shù)據(jù)處理。如果你想用Java編程，沒(méi)關(guān)系。關(guān)鍵是找出哪一個(gè)適合你，選擇最適合你的。etl如何實(shí)現(xiàn)業(yè)務(wù)原系統(tǒng)數(shù)據(jù)接入？數(shù)據(jù)增量

數(shù)據(jù)處理（ETL）和java開(kāi)發(fā)職位選哪個(gè)？

因此，如果您喜歡數(shù)據(jù)處理，請(qǐng)選擇數(shù)據(jù)處理。如果你想用Java編程，沒(méi)關(guān)系。關(guān)鍵是找出哪一個(gè)適合你，選擇最適合你的。

etl如何實(shí)現(xiàn)業(yè)務(wù)原系統(tǒng)數(shù)據(jù)接入？數(shù)據(jù)增量全量抽取有幾種方案？

我們現(xiàn)在做的項(xiàng)目對(duì)ETL很有用。

項(xiàng)目剛成立兩三個(gè)月。目前，我指揮著四個(gè)人。明年，我們計(jì)劃再增加四個(gè)人?，F(xiàn)在，兩個(gè)人在做ETL數(shù)據(jù)提取，兩個(gè)人在做Java，我的戰(zhàn)斗力可以算作三個(gè)人在做Java。

為什么要單獨(dú)提取數(shù)據(jù)？

系統(tǒng)現(xiàn)在有大量的查詢，這些查詢是實(shí)時(shí)查詢。有些查詢涉及幾十個(gè)表的關(guān)聯(lián)，這些表少了幾千萬(wàn)，大了幾億，所以有些接口的返回速度非常慢。

我們整理出一些可以接受T1的接口，提取相關(guān)數(shù)據(jù)，處理一次，把幾十個(gè)表的數(shù)據(jù)處理成一個(gè)完整的數(shù)據(jù)，保存在mongodb中，然后提供接口服務(wù)。

以前，界面需要幾秒鐘才能返回，有些甚至需要十幾秒鐘?，F(xiàn)在，對(duì)于500個(gè)并發(fā)應(yīng)用程序，它基本上可以在100毫秒內(nèi)返回。

有沒(méi)有擴(kuò)展性較好的ETL產(chǎn)品？

讓我介紹一下我知道的常見(jiàn)ETL工具：dataX、Datastage、Informatica、kettle和datapipeline。

阿里巴巴開(kāi)源軟件：dataX

dataX是一款針對(duì)異構(gòu)數(shù)據(jù)源的離線同步工具。致力于實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)（mysql、Oracle等）、HDFS、hive、ODPs、HBase、FTP等異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步

Kettle開(kāi)源軟件：Kettle（中文名）

Kettle是國(guó)外開(kāi)源ETL工具，純Java編寫(xiě)，可以在windows上運(yùn)行，Linux和UNIX，具有良好的可擴(kuò)展性和高效穩(wěn)定的數(shù)據(jù)抽取。主從結(jié)構(gòu)，無(wú)高可用性。它不支持?jǐn)?shù)據(jù)的實(shí)時(shí)同步，也不支持?jǐn)帱c(diǎn)續(xù)航。

IBM商務(wù)軟件：Datastage

最專業(yè)的商務(wù)ETL工具，價(jià)格比較貴，但處理速度也能在大數(shù)據(jù)量下保持較快的處理速度和穩(wěn)定性。實(shí)時(shí)監(jiān)控也很不錯(cuò)，可以看到數(shù)據(jù)提取的情況，運(yùn)行到哪一步，很直觀。強(qiáng)大的售后技術(shù)支持。

商務(wù)軟件：Informatica

專業(yè)ETL工具，價(jià)格比Datastage便宜一點(diǎn)，需要安裝服務(wù)器和客戶端，處理速度與Datastage相同。分布式部署，支持實(shí)時(shí)性，但效率不高。技術(shù)支持主要在美國(guó)，所以在中國(guó)使用較少。

國(guó)產(chǎn)：datapipeline

國(guó)產(chǎn)充電工具，與dataX相比，datapipeline具有可視化的過(guò)程監(jiān)控，提供多樣化的圖標(biāo)、輔助操作和維護(hù)，以及故障問(wèn)題的實(shí)時(shí)報(bào)警。DataX需要依賴工具日志來(lái)定位故障問(wèn)題。支持實(shí)時(shí)，dataX是定時(shí)的。支持?jǐn)帱c(diǎn)延續(xù)，但dataX不支持。體系結(jié)構(gòu)也是分布式的，支持水平擴(kuò)展。

水壺是一個(gè)小的數(shù)據(jù)要求，它唯一的優(yōu)勢(shì)是免費(fèi)的

1。沒(méi)有過(guò)程管理。當(dāng)表被鎖定時(shí)，很難找到原因，并且無(wú)法終止進(jìn)程，也無(wú)法控制最大進(jìn)程數(shù)。

2. 數(shù)據(jù)抽取不能自動(dòng)分包，也沒(méi)有像ABAP這樣高效的查詢語(yǔ)句，比如select from。。所有入口都在。。大數(shù)據(jù)處理速度很慢，大量數(shù)據(jù)的日常處理無(wú)法完成。

3. 無(wú)法自動(dòng)處理指定字段的增量。

4. 無(wú)法調(diào)試，調(diào)試將不提取數(shù)據(jù)。

5. 在計(jì)劃處理鏈中指定命令非常麻煩。沒(méi)有接口操作。處理鏈中有錯(cuò)誤。無(wú)法繼續(xù)運(yùn)行或跳過(guò)處理。

6. 無(wú)法記錄每個(gè)處理詳細(xì)信息并記錄處理時(shí)間。

7. 無(wú)法共享字段。字段不關(guān)聯(lián)本位幣單位，沒(méi)有基礎(chǔ)資料字段的概念。

8. 沒(méi)有包處理的概念，沒(méi)有日志處理。

9. 沒(méi)有版本控制，聯(lián)機(jī)不是傳輸。

10. 另外，沒(méi)有外部發(fā)布WS、OData接口函數(shù)

更不用說(shuō)報(bào)表函數(shù)，權(quán)限控制功能不強(qiáng)，底層數(shù)據(jù)庫(kù)也不是多維信息立方體結(jié)構(gòu)，字段也不區(qū)分指標(biāo)和特征。。。。。

ETL工具，Kettle和DataStage各自有什么優(yōu)缺點(diǎn)，目前哪個(gè)更流行一些？

兩個(gè)工程師的發(fā)展方向不同，主要集中在不同的方向：[ETL工程師，主要技術(shù)發(fā)展方向集中在數(shù)據(jù)庫(kù)，或者海量數(shù)據(jù)處理方向，未來(lái)可以發(fā)展到數(shù)據(jù)庫(kù)開(kāi)發(fā)工程師、數(shù)據(jù)庫(kù)架構(gòu)師、數(shù)據(jù)分析師等

Java工程師，主要側(cè)重于軟件開(kāi)發(fā)方向，即編程，也可以逐步發(fā)展為高級(jí)程序員、系統(tǒng)架構(gòu)師等

但開(kāi)發(fā)不是絕對(duì)的。這主要取決于個(gè)人的機(jī)會(huì)和發(fā)展環(huán)境。我們不能說(shuō)哪個(gè)好，哪個(gè)不好。

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

數(shù)據(jù)處理（ETL）和java開(kāi)發(fā)職位選哪個(gè)？

etl如何實(shí)現(xiàn)業(yè)務(wù)原系統(tǒng)數(shù)據(jù)接入？數(shù)據(jù)增量全量抽取有幾種方案？

有沒(méi)有擴(kuò)展性較好的ETL產(chǎn)品？

ETL工具，Kettle和DataStage各自有什么優(yōu)缺點(diǎn)，目前哪個(gè)更流行一些？

相關(guān)推薦

數(shù)據(jù)處理（ETL）和java開(kāi)發(fā)職位選哪個(gè)？

etl如何實(shí)現(xiàn)業(yè)務(wù)原系統(tǒng)數(shù)據(jù)接入？數(shù)據(jù)增量全量抽取有幾種方案？

有沒(méi)有擴(kuò)展性較好的ETL產(chǎn)品？

ETL工具，Kettle和DataStage各自有什么優(yōu)缺點(diǎn)，目前哪個(gè)更流行一些？