倉儲(chǔ)庫存 為什么建數(shù)據(jù)倉庫需要使用ETL工具?
為什么建數(shù)據(jù)倉庫需要使用ETL工具?數(shù)據(jù)倉庫是一個(gè)戰(zhàn)略集合,為各級(jí)決策過程提供各種數(shù)據(jù)支持。它是為分析報(bào)告和決策支持目的而創(chuàng)建的單個(gè)數(shù)據(jù)存儲(chǔ)。由于要獲取所有的數(shù)據(jù),必然涉及到多系統(tǒng)、多類型數(shù)據(jù)庫的對(duì)接
為什么建數(shù)據(jù)倉庫需要使用ETL工具?
數(shù)據(jù)倉庫是一個(gè)戰(zhàn)略集合,為各級(jí)決策過程提供各種數(shù)據(jù)支持。它是為分析報(bào)告和決策支持目的而創(chuàng)建的單個(gè)數(shù)據(jù)存儲(chǔ)。由于要獲取所有的數(shù)據(jù),必然涉及到多系統(tǒng)、多類型數(shù)據(jù)庫的對(duì)接問題,以及數(shù)據(jù)的提取和整理問題。
此時(shí),ETL工具的功能體現(xiàn)在數(shù)據(jù)提取、轉(zhuǎn)換和加載的過程中,直至用于人們的分析。ETL是數(shù)據(jù)抽取、轉(zhuǎn)換和加載的過程。
在某些地方,可以先在轉(zhuǎn)換中選擇和加載ELT。對(duì)于日志倉庫,ETL首先要考慮業(yè)務(wù)需求,最后數(shù)據(jù)登陸模型要體現(xiàn)一定的主題。
一般來說,數(shù)據(jù)倉庫就像一個(gè)大的池。水池的供水需要水泵和水管,ETL負(fù)責(zé)水泵和水管的功能。
數(shù)據(jù)庫與數(shù)據(jù)倉庫的本質(zhì)差別是什么?
數(shù)據(jù)庫和數(shù)據(jù)倉庫的本質(zhì)區(qū)別如下:
1。邏輯層/概念層:數(shù)據(jù)庫和數(shù)據(jù)倉庫實(shí)際上是相同的或非常相似的。它們通過一定的數(shù)據(jù)庫軟件,按照一定的數(shù)據(jù)模型組織和管理數(shù)據(jù)。然而,數(shù)據(jù)庫通常更注重業(yè)務(wù)事務(wù)處理(OLTP),而數(shù)據(jù)倉庫更注重?cái)?shù)據(jù)分析層次(OLAP),導(dǎo)致數(shù)據(jù)庫模型的差異很大。
2. 數(shù)據(jù)庫通常追求事務(wù)速度、事務(wù)完整性、數(shù)據(jù)一致性等。在數(shù)據(jù)庫模型中,主要遵循規(guī)范模型(1NF、2NF、3NF等),盡量減少數(shù)據(jù)冗余,保證引用的完整性。數(shù)據(jù)倉庫強(qiáng)調(diào)數(shù)據(jù)分析的效率、復(fù)雜查詢的速度以及數(shù)據(jù)之間的相關(guān)性分析,因此在數(shù)據(jù)庫模型中數(shù)據(jù)倉庫喜歡采用多維模型來提高數(shù)據(jù)分析的效率。
3. 產(chǎn)品實(shí)現(xiàn)層次:數(shù)據(jù)庫和數(shù)據(jù)倉庫軟件之間存在一些差異。數(shù)據(jù)庫通常使用行存儲(chǔ),如sapase、Oracle和microsoftsqlserver,而數(shù)據(jù)倉庫則傾向于使用列存儲(chǔ),如sapiq和saphana。