etl數據抽取工具 開源etl工具比較,kettle和talend,都有什么優(yōu)勢和劣勢?
開源etl工具比較,kettle和talend,都有什么優(yōu)勢和劣勢?幾種ETL工具(kettle、talent、Informatica、datapipeline等)的比較四種工具的比較主要從以下幾個方
開源etl工具比較,kettle和talend,都有什么優(yōu)勢和劣勢?
幾種ETL工具(kettle、talent、Informatica、datapipeline等)的比較
四種工具的比較主要從以下幾個方面進行:
1。成本:
軟件成本包括很多方面,包括軟件產品、售前培訓、售后咨詢、技術支持等
開源產品本身是免費的,成本主要是培訓和咨詢,所以成本始終保持在較低的水平。
商業(yè)產品的價格非常高,但通常會提供幾次免費咨詢或支持,因此使用商業(yè)軟件的初始成本非常高,但會逐漸降低。
人工編碼初期成本不高,主要是人力成本,但后期維護工作量會越來越大。
2. 易用性:
datapipeline:GUI非常易于使用,具有豐富的視覺監(jiān)控;
kettle:GUI編碼;
Informatica:GUI編碼,具有GUI,但經過特殊培訓;
talent:GUI編碼,具有GUI圖形界面,但具有eclipse 3。技能要求:
數據管道:操作簡單,無技術要求;
水壺:ETL設計,SQL,數據建模;
Informatica:ETL設計,SQL,數據建模;
人才:需要編寫Java;
4。底層架構:
datapipeline:分布式,水平可擴展;
Ketter:主從結構不高可用性;
有沒有擴展性較好的ETL產品?
介紹我知道的常見ETL工具:dataX、Datastage、Informatica、Ketter、datapipeline。
阿里巴巴開源軟件:dataX
dataX是一款針對異構數據源的離線同步工具。致力于實現關系數據庫(mysql、Oracle等)、HDFS、hive、ODPs、HBase、FTP等異構數據源之間穩(wěn)定高效的數據同步
Kettle開源軟件:Kettle(中文名)
Kettle是國外開源ETL工具,純Java編寫,可以在windows上運行,Linux和UNIX,具有良好的可擴展性和高效穩(wěn)定的數據抽取。主從結構,無高可用性。它不支持數據的實時同步,也不支持斷點續(xù)航。
IBM商務軟件:Datastage
最專業(yè)的商務ETL工具,價格比較貴,但處理速度也能在大數據量下保持較快的處理速度和穩(wěn)定性。實時監(jiān)控也很不錯,可以看到數據提取的情況,運行到哪一步,很直觀。強大的售后技術支持。
商務軟件:Informatica
專業(yè)ETL工具,價格比Datastage便宜一點,需要安裝服務器和客戶端,處理速度與Datastage相同。分布式部署,支持實時性,但效率不高。技術支持主要在美國,所以在中國使用較少。
國產:datapipeline
國產充電工具,與dataX相比,datapipeline具有可視化的過程監(jiān)控,提供多樣化的圖標、輔助操作和維護,以及故障問題的實時報警。DataX需要依賴工具日志來定位故障問題。支持實時,dataX是定時的。支持斷點延續(xù),但dataX不支持。體系結構也是分布式的,支持水平擴展。
水壺是一個小的數據要求,它唯一的優(yōu)勢是免費的
1。沒有過程管理。當表被鎖定時,很難找到原因,并且無法終止進程,也無法控制最大進程數。
2. 數據抽取不能自動分包,也沒有像ABAP這樣高效的查詢語句,比如select from。。所有入口都在。。大數據處理速度很慢,大量數據的日常處理無法完成。
3. 無法自動處理指定字段的增量。
4. 無法調試,調試將不提取數據。
5. 在計劃處理鏈中指定命令非常麻煩。沒有接口操作。處理鏈中有錯誤。無法繼續(xù)運行或跳過處理。
6. 無法記錄每個處理詳細信息并記錄處理時間。
7. 無法共享字段。字段不關聯(lián)本位幣單位,沒有基礎資料字段的概念。
8. 沒有包處理的概念,沒有日志處理。
9. 沒有版本控制,聯(lián)機不是傳輸。
10. 另外,沒有外部發(fā)布WS、OData接口函數
更不用說報表函數,權限控制功能不強,底層數據庫也不是多維信息立方體結構,字段也不區(qū)分指標和特征。。。。。
ETL工具,Kettle和DataStage各自有什么優(yōu)缺點,目前哪個更流行一些?
ETL工作的實質是從各種數據源中提取數據,對數據進行轉換,最后通過數據倉庫的維度建模,將數據加載并填充到表中。只有填寫了這些維度/事實表,ETL工作才能完成。接下來,分別闡述了提取、轉換和加載的三個步驟:數據倉庫面向分析,操作數據庫面向應用。顯然,并非所有用于支持業(yè)務系統(tǒng)的數據都是分析所必需的。因此,本階段主要根據數據倉庫主題和主題字段確定從應用數據庫中提取的編號。
在具體的開發(fā)過程中,開發(fā)人員必須經常發(fā)現數據倉庫建模后某些ETL步驟與表描述不匹配。這時,需要重新檢查和設計需求,重新進行ETL。正如本文在數據庫系列中提到的,任何涉及需求的更改都需要重新開始并更新需求文檔。
轉換步驟主要是指轉換提取的數據結構以滿足目標數據倉庫模型的過程。此外,轉換過程還對數據質量負責,這也稱為數據清洗。這里可以參考數據質量的內容。
在加載過程中,為確保數據質量而提取和轉換的數據將加載到目標數據倉庫中。加載可以分為兩種類型:首次加載和刷新加載。其中,首次加載會涉及大量數據,而刷新加載是一種微批量加載。
我們可以說,隨著各種分布式和云計算工具的興起,ETL實際上已經成為ELT。也就是說,業(yè)務系統(tǒng)本身不會做轉換工作,而是將數據導入到分布式平臺進行簡單清洗后,讓平臺進行清洗和轉換工作。這樣可以充分利用平臺的分布式特點,使業(yè)務系統(tǒng)更加專注于業(yè)務本身。
數據倉庫ETL到底是什么?
ETL只是數據處理的一個小分支。我以前做過數據中心產品。ETL工具使用開源的kettle,這很容易使用。
但是僅僅用ETL來進行數據收集和清理并不能使整個數據中心產品成為可能。如何提高海量數據處理的效率
如何審核數據的一致性,如何在多個屏幕上顯示和交互都有很大的知識。
如果我們只是做ETL,它有點太窄,而且未來的就業(yè)選擇不夠廣泛。
建議盡量選擇更廣泛的數據處理工作,如大數據處理技術。
個人建議,歡迎討論