數(shù)據(jù)庫同步工具 如何實(shí)現(xiàn)交易數(shù)據(jù)到大數(shù)據(jù)平臺的實(shí)時同步?
如何實(shí)現(xiàn)交易數(shù)據(jù)到大數(shù)據(jù)平臺的實(shí)時同步?在企業(yè)級大數(shù)據(jù)平臺建設(shè)中,將傳統(tǒng)關(guān)系數(shù)據(jù)庫(如Oracle)中的數(shù)據(jù)聚合到Hadoop平臺上是一個重要的課題。目前主流工具有sqoop、dataX、Oracle
如何實(shí)現(xiàn)交易數(shù)據(jù)到大數(shù)據(jù)平臺的實(shí)時同步?
在企業(yè)級大數(shù)據(jù)平臺建設(shè)中,將傳統(tǒng)關(guān)系數(shù)據(jù)庫(如Oracle)中的數(shù)據(jù)聚合到Hadoop平臺上是一個重要的課題。
目前主流工具有sqoop、dataX、Oracle golden gate for big data等,sqoop通過SQL語句獲取關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)后,通過Hadoop的MapReduce將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入HDFS。它通過指定增量列或根據(jù)時間戳實(shí)現(xiàn)增量導(dǎo)入的目的。原理上是離線批量導(dǎo)入技術(shù);dataX在運(yùn)行dataX的機(jī)器上直接提取和加載數(shù)據(jù)的主要原理是:通過reader插件讀取源數(shù)據(jù),通過writer插件將數(shù)據(jù)寫入目標(biāo),利用job控制同步j(luò)ob,這也是一種離線批量導(dǎo)入技術(shù);Oracle gold gate for big Data從在線日志中提取數(shù)據(jù)更改,轉(zhuǎn)換成GGS自定義數(shù)據(jù)格式,存儲在本地隊列或遠(yuǎn)程隊列中,使用TCP/IP傳輸數(shù)據(jù)更改,集成數(shù)據(jù)壓縮,并提供了理論壓縮比為9:1的數(shù)據(jù)壓縮特性。它在不影響源系統(tǒng)性能的前提下,簡化了向通用大數(shù)據(jù)解決方案的實(shí)時數(shù)據(jù)傳輸,將事務(wù)數(shù)據(jù)實(shí)時傳輸?shù)酱髷?shù)據(jù)系統(tǒng)中。對比以上工具和方法,結(jié)合數(shù)據(jù)處理的準(zhǔn)確性和實(shí)時性要求,我們評價Oracle golden for big data基本可以滿足當(dāng)前大數(shù)據(jù)平臺的數(shù)據(jù)抽取要求。
大數(shù)據(jù)開發(fā)平臺如何進(jìn)行數(shù)據(jù)同步服務(wù)?
首先,什么是數(shù)據(jù)同步服務(wù)?顧名思義,就是在不同的系統(tǒng)之間同步數(shù)據(jù)。根據(jù)具體的業(yè)務(wù)用途和應(yīng)用場景,各種數(shù)據(jù)同步服務(wù)框架的功能重點(diǎn)往往是不同的,所以我們也會用各種類似的名稱來稱呼這類服務(wù),比如數(shù)據(jù)傳輸服務(wù)、數(shù)據(jù)采集服務(wù)、數(shù)據(jù)交換服務(wù)等
首先,我們要做的是明確業(yè)務(wù)范圍,統(tǒng)一數(shù)據(jù)來源,規(guī)范數(shù)據(jù)類型,統(tǒng)一企業(yè)內(nèi)部數(shù)據(jù)管理,進(jìn)行數(shù)據(jù)治理,確保企業(yè)數(shù)據(jù)的一致性。只有在完整性之后才能進(jìn)行數(shù)據(jù)同步服務(wù)。
第二個是數(shù)據(jù)同步服務(wù)。首先,我們需要使用一個開源的ETL工具來讀取、操作和向各種數(shù)據(jù)源寫入數(shù)據(jù),它可以不用安裝和解壓就可以使用。它可以通過客戶端進(jìn)行配置和執(zhí)行。也可以使用ESB企業(yè)服務(wù)總線快速創(chuàng)建同步分發(fā)服務(wù),將企業(yè)系統(tǒng)的數(shù)據(jù)拉入或推送到大數(shù)據(jù)分析平臺,實(shí)現(xiàn)大數(shù)據(jù)分析。
最后,在大數(shù)據(jù)開發(fā)平臺中,我們可以根據(jù)不同的業(yè)務(wù)需求安排傳輸同步服務(wù),從而獲得企業(yè)數(shù)據(jù)同步到數(shù)據(jù)倉庫進(jìn)行各種存儲/計算/查詢的數(shù)據(jù)集組件配置。
綜上所述,是大數(shù)據(jù)開發(fā)平臺的數(shù)據(jù)同步服務(wù)步驟。通過收集企業(yè)內(nèi)外部數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,可以有效提升企業(yè)內(nèi)外部數(shù)據(jù)的價值,幫助企業(yè)從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中獲取業(yè)務(wù)洞察力。