kettle如何創(chuàng)建通用的數(shù)據(jù)庫連接 大數(shù)據(jù)工程師需要會什么?
大數(shù)據(jù)工程師需要會什么?Java基礎HTML、CSS與JavaLinuxHadoopt體系Spark生態(tài)體系Storm生態(tài)體系實戰(zhàn):數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)應用等等...spoon輸出表找不
大數(shù)據(jù)工程師需要會什么?
Java基礎
HTML、CSS與Java
LinuxHadoopt體系
Spark生態(tài)體系
Storm生態(tài)體系
實戰(zhàn):數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)應用
等等...
spoon輸出表找不到數(shù)據(jù)庫?
答:spoon輸出表一直找不到數(shù)據(jù)庫的解決方法步驟不勝感激。驅(qū)動文件安裝好失敗。最后確認如何確定安裝好了驅(qū)程文件。上網(wǎng)下載對度應數(shù)據(jù)庫的驅(qū)動jar包放進kettle下的lib目錄下,oracle數(shù)據(jù)庫再連接的時候,必須在表也可以數(shù)據(jù)庫的前面算上前綴詞。
kettle如何把文件保存到服務器?
先把系統(tǒng)接受下升級,接著再把服務器的數(shù)據(jù)通過下,梳理升級,到最后找到ktr文件,然后再就也可以通過需要保存了,之后確認就可以了。
再說文件路徑、數(shù)據(jù)庫直接連接參數(shù)變化的問題,肯定用環(huán)境變量來解決的辦法,最簡單的方法,把這些可能會會變化的參數(shù)寫在文件中,然后再在轉(zhuǎn)換和作業(yè)中不使用${參數(shù)名}語句,那樣在服務器上移動數(shù)據(jù)庫和文件路徑的時候,只必須改文件去掉,不要直接修改裝換本身。
現(xiàn)在哪些采集工具,可以采集我做科研的臨床數(shù)據(jù)嗎?就是醫(yī)院里面的軟件數(shù)據(jù)?
你好現(xiàn)在的喂養(yǎng)靈獸工具很多,看你們科研數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)我還是非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化是關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),如:mysql,Oracle,Sql server等數(shù)據(jù)庫中的數(shù)據(jù)。非結(jié)構(gòu)化諸如你們醫(yī)療系統(tǒng)每天晚上啟動的日志,每件精密儀器運行產(chǎn)生的數(shù)據(jù)。
兩類數(shù)據(jù)差異很小,采藥的工具也完全不同。結(jié)構(gòu)化數(shù)據(jù)看你采藥儲存到哪里。要不然沒有都用到大數(shù)據(jù)技術(shù),只有用kettle工具采藥了。這個工具功能比較大。再采集導入到各種存儲的系統(tǒng)中,也可以不庫對庫,庫對文件等。
非結(jié)構(gòu)化的數(shù)據(jù),這類數(shù)據(jù)不能用FTP工具來半自動哪采了。就算會腳本開發(fā)語言,寫哪采腳本也能實現(xiàn)。
當然,采集數(shù)據(jù)工具很多,就看是那一類數(shù)據(jù)了。與此同時計算機技術(shù)快速發(fā)展,現(xiàn)在的采集工具挺好用,給樓主幫我推薦幾種:DataX,Sqoop,flume,kafka等。這些技術(shù)都能實現(xiàn)方法三千多種數(shù)據(jù)彼此間導入導出。只希望對你有用嗎,謝謝了!
想做數(shù)據(jù)庫管理員需要學什么?
你說的數(shù)據(jù)庫是更適合于BI商業(yè)數(shù)據(jù)分析那就DBA數(shù)據(jù)庫管理員。
如果沒有是BI,說一些我很清楚的:
BI數(shù)據(jù)分析先要把數(shù)據(jù)灌注進自己的系統(tǒng)。這過程牽涉到一些etl工具,公司在用的是kettle;
對SQL語句語言特別要求挺高的,他們都會寫一些非人類的sql,sql簡直就是一門編程語言;
報表制作,我們公司也是不使用一些現(xiàn)成的報表系統(tǒng),開源的諸如clickhouse、metabase等;
一些商業(yè)軟件會把BI的工作集成主板到了一個系統(tǒng)中,.例如SAPBO系統(tǒng)。BI就說這么說多吧,非專業(yè)人士。
如果沒有是做DBA,反而數(shù)據(jù)庫要學,操作系統(tǒng)層面的知識也要學:
sql是基礎,增刪改查,一些比較普遍的數(shù)據(jù)設計規(guī)范、權(quán)限管理等等;
要所了解關(guān)系型數(shù)據(jù)庫的各種存儲結(jié)構(gòu),例如什么是B-Tree,各種索引結(jié)構(gòu);
數(shù)據(jù)庫安裝配置優(yōu)化都要懂吧,怎么分析什么問題、怎末接受系統(tǒng)的優(yōu)化??;
Linux要很熟悉,比如要分析什么一些網(wǎng)絡問題,IO問題;
DBA也又不是我的專業(yè),只不過相對于比BI懂的多點。
后來跪求python。個人感覺上,DBA估計不怎么用python。
在商業(yè)數(shù)據(jù)分析方面,python肯定有不少用武之地。如果沒有要學它在數(shù)據(jù)分析方面的運用,python中幾個數(shù)據(jù)分析庫這個可以清楚下,它們分別是應用于數(shù)據(jù)運算與分析的numpy和pandas、作用于可視化作圖的matplotlib。