常用的etl工具 目前比較好的開源BI框架是什么,想給中小客戶豐富一下解決方案,怎么選擇?
目前比較好的開源BI框架是什么,想給中小客戶豐富一下解決方案,怎么選擇?事實上,開源Bi框架并不多。目前,最好使用的是pentaho的Bi套件。Bi主要分為兩個階段,ETL和可視化。如果你使用pent
目前比較好的開源BI框架是什么,想給中小客戶豐富一下解決方案,怎么選擇?
事實上,開源Bi框架并不多。目前,最好使用的是pentaho的Bi套件。
Bi主要分為兩個階段,ETL和可視化。如果你使用pentaho,你可以直接用它的水壺進行ETL。有相應的可視化工具。
另外,國內(nèi)很多企業(yè)也有相應的BI產(chǎn)品,比如百度的BI平臺,這是一個靈活的BI開發(fā)工具。分析商業(yè)智能也很好。許多國內(nèi)的可視化工具可以顯示,如fansoft。
其他Bi平臺,如cborad和risi Bi,都是開源的。但是,應該注意的是,根據(jù)用戶數(shù)量和使用范圍的不同,開源工具相對缺乏相關信息。如果你想使用它們,最好直接從代碼開始,找個專人長期維護。
數(shù)據(jù)倉庫ETL到底是什么?
ETL工作的實質(zhì)是從各種數(shù)據(jù)源中提取數(shù)據(jù),對數(shù)據(jù)進行轉(zhuǎn)換,最后通過數(shù)據(jù)倉庫的維度建模,將數(shù)據(jù)加載并填充到表中。只有填寫了這些維度/事實表,ETL工作才能完成。接下來,分別闡述了提取、轉(zhuǎn)換和加載的三個步驟:數(shù)據(jù)倉庫面向分析,操作數(shù)據(jù)庫面向應用。顯然,并非所有用于支持業(yè)務系統(tǒng)的數(shù)據(jù)都是分析所必需的。因此,本階段主要根據(jù)數(shù)據(jù)倉庫主題和主題字段確定從應用數(shù)據(jù)庫中提取的編號。
在具體的開發(fā)過程中,開發(fā)人員必須經(jīng)常發(fā)現(xiàn)數(shù)據(jù)倉庫建模后某些ETL步驟與表描述不匹配。這時,需要重新檢查和設計需求,重新進行ETL。正如本文在數(shù)據(jù)庫系列中提到的,任何涉及需求的更改都需要重新開始并更新需求文檔。
轉(zhuǎn)換步驟主要是指轉(zhuǎn)換提取的數(shù)據(jù)結(jié)構(gòu)以滿足目標數(shù)據(jù)倉庫模型的過程。此外,轉(zhuǎn)換過程還對數(shù)據(jù)質(zhì)量負責,這也稱為數(shù)據(jù)清洗。這里可以參考數(shù)據(jù)質(zhì)量的內(nèi)容。
在加載過程中,為確保數(shù)據(jù)質(zhì)量而提取和轉(zhuǎn)換的數(shù)據(jù)將加載到目標數(shù)據(jù)倉庫中。加載可以分為兩種類型:首次加載和刷新加載。其中,首次加載會涉及大量數(shù)據(jù),而刷新加載是一種微批量加載。
我們可以說,隨著各種分布式和云計算工具的興起,ETL實際上已經(jīng)成為ELT。也就是說,業(yè)務系統(tǒng)本身不會做轉(zhuǎn)換工作,而是將數(shù)據(jù)導入到分布式平臺進行簡單清洗后,讓平臺進行清洗和轉(zhuǎn)換工作。這樣可以充分利用平臺的分布式特點,使業(yè)務系統(tǒng)更加專注于業(yè)務本身。
常用的etl工具有哪些?
1. 北京數(shù)字科技有限公司所屬數(shù)據(jù)管道是企業(yè)級批量流集成數(shù)據(jù)融合服務提供商和解決方案提供商,是國內(nèi)實時數(shù)據(jù)管道技術的倡導者。通過平臺和技術為企業(yè)客戶解決數(shù)據(jù)準備過程中的各種痛點,幫助客戶更靈活、更高效、更簡單地實現(xiàn)復雜異構(gòu)數(shù)據(jù)源到目的地的實時數(shù)據(jù)融合和數(shù)據(jù)管理服務。從而打破傳統(tǒng)ETL對客戶靈活數(shù)據(jù)應用的束縛,使數(shù)據(jù)準備過程不再成為數(shù)據(jù)消耗的瓶頸。
2. kettlettle是國外一個開源的ETL工具,用純Java編寫,可以在windows、Linux和UNIX上運行,數(shù)據(jù)提取效率高、穩(wěn)定。水壺在中文里叫水壺。馬特,這個項目的主要程序員,希望把各種各樣的數(shù)據(jù)放到一個水壺里,然后以指定的格式流出來。
3. Talendtalent是數(shù)據(jù)集成解決方案領域的領先企業(yè),為公共云、私有云和本地環(huán)境提供集成數(shù)據(jù)集成平臺。Talend的使命是幫助客戶優(yōu)化數(shù)據(jù),提高數(shù)據(jù)可靠性,并更快地將企業(yè)數(shù)據(jù)轉(zhuǎn)化為業(yè)務價值。憑借這一使命,talend的解決方案將數(shù)據(jù)從傳統(tǒng)基礎架構(gòu)中解放出來,提高了客戶對業(yè)務的洞察力,并使客戶能夠更早地實現(xiàn)業(yè)務價值。
4. Informatica Informatica是世界領先的數(shù)據(jù)管理軟件供應商。Gartner在以下幻方圖方面處于領先地位:數(shù)據(jù)集成工具幻方圖、數(shù)據(jù)質(zhì)量工具幻方圖、元數(shù)據(jù)管理解決方案幻方圖、主數(shù)據(jù)管理解決方案幻方圖、企業(yè)級集成平臺即服務(eipaas)幻方圖。
5、DataStageIBM?InfoSphere? 信息服務器是一個數(shù)據(jù)集成的軟件平臺,它可以幫助企業(yè)從分散在各個系統(tǒng)中的復雜的異構(gòu)信息中獲取更多的價值。infosphereinformationserver為公司提供了一個統(tǒng)一的平臺來理解、清理、轉(zhuǎn)換和交付可信的上下文信息。IBM?InfoSphere? DataStage?和QualityStage? 提供一個圖形化框架,您可以使用它來設計和運行用于轉(zhuǎn)換、清理和加載數(shù)據(jù)的作業(yè)。
開源etl工具比較,kettle和talend,都有什么優(yōu)勢和劣勢?
幾種ETL工具(kettle、talent、Informatica、datapipeline等)的比較
四種工具的比較主要從以下幾個方面進行:
1。成本:
軟件成本包括很多方面,包括軟件產(chǎn)品、售前培訓、售后咨詢、技術支持等
開源產(chǎn)品本身是免費的,成本主要是培訓和咨詢,所以成本始終保持在較低的水平。
商業(yè)產(chǎn)品的價格非常高,但通常會提供幾次免費咨詢或支持,因此使用商業(yè)軟件的初始成本非常高,但會逐漸降低。
人工編碼初期成本不高,主要是人力成本,但后期維護工作量會越來越大。
2. 易用性:
datapipeline:GUI非常易于使用,具有豐富的視覺監(jiān)控;
kettle:GUI編碼;
Informatica:GUI編碼,具有GUI,但經(jīng)過特殊培訓;
talent:GUI編碼,具有GUI圖形界面,但具有eclipse 3。技能要求:
數(shù)據(jù)管道:操作簡單,無技術要求;
水壺:ETL設計,SQL,數(shù)據(jù)建模;
Informatica:ETL設計,SQL,數(shù)據(jù)建模;
人才:需要編寫Java;
4。底層架構(gòu):
datapipeline:分布式,水平可擴展;
Ketter:主從結(jié)構(gòu)不高可用性;
Informatica:分布式;