大數(shù)據(jù)建模平臺 數(shù)據(jù)倉庫數(shù)據(jù)建模的幾種思路?
數(shù)據(jù)倉庫數(shù)據(jù)建模的幾種思路?說到建模,我們不得不說有兩個(gè)好人,一個(gè)是數(shù)據(jù)倉庫之父inmon,他提倡ER模型,另一個(gè)是Kimball,他提倡維度模型。事實(shí)上,這兩種建模方法各有優(yōu)勢。ER模型是一種實(shí)體關(guān)
數(shù)據(jù)倉庫數(shù)據(jù)建模的幾種思路?
說到建模,我們不得不說有兩個(gè)好人,一個(gè)是數(shù)據(jù)倉庫之父inmon,他提倡ER模型,另一個(gè)是Kimball,他提倡維度模型。事實(shí)上,這兩種建模方法各有優(yōu)勢。ER模型是一種實(shí)體關(guān)系模型,對建模者要求高,實(shí)現(xiàn)周期長。施工完成后,數(shù)據(jù)之間的關(guān)系清晰,沒有冗余。它在保證數(shù)據(jù)的一致性和準(zhǔn)確性方面有著天然的優(yōu)勢,但不能應(yīng)對后期的業(yè)務(wù)變化。維度模型將業(yè)務(wù)數(shù)據(jù)分為維度表和事實(shí)表。維度表主要用于存儲一些不隨業(yè)務(wù)發(fā)展而變化的公共數(shù)據(jù),如員工信息、合同信息等事實(shí)表。用于存儲維度表的一些鍵值和度量值,如員工ID、交易金額等。維度建模不需要建模者了解全局?jǐn)?shù)據(jù),只需要了解相關(guān)數(shù)據(jù),在面對業(yè)務(wù)變化時(shí)具有天然的優(yōu)勢。另外,還有Inman在ER模型上改進(jìn)的datavault模型,但是datavault不能簡單地稱為一個(gè)模型,它是一個(gè)整體的解決方案。
統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)建模,有什么區(qū)別?
統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)建模可用于數(shù)據(jù)分析和數(shù)據(jù)挖掘。不同的是,統(tǒng)計(jì)建模是基于傳統(tǒng)的統(tǒng)計(jì)方法,如回歸分析、聚類分析、主成分分析等,側(cè)重于對已知現(xiàn)象或數(shù)據(jù)的描述。雖然機(jī)器學(xué)習(xí)建模也是基于統(tǒng)計(jì)的,但它側(cè)重于對未知現(xiàn)象或數(shù)據(jù)的預(yù)測,對數(shù)據(jù)的大小有一定的要求。
統(tǒng)計(jì)建模是指基于統(tǒng)計(jì)知識的建模。常用的統(tǒng)計(jì)知識包括參數(shù)估計(jì)、假設(shè)檢驗(yàn)、方差分析、回歸分析、時(shí)間序列、聚類分析、主成分分析和因子分析,如下圖所示。
機(jī)器學(xué)習(xí)建模是指利用機(jī)器學(xué)習(xí)算法進(jìn)行建模。常用的機(jī)器學(xué)習(xí)算法有:k近鄰算法、決策樹、邏輯回歸、SVM、隨機(jī)林、聚類分析、關(guān)聯(lián)分析等,實(shí)現(xiàn)這些算法的語言有Python和r,具體如下圖所示。!不管是統(tǒng)計(jì)建模還是機(jī)器學(xué)習(xí)建模,我們都需要有一個(gè)好的數(shù)學(xué)基礎(chǔ),主要是微積分、線性代數(shù)和概率論。
就是這樣!歡迎關(guān)注[數(shù)據(jù)科學(xué)孫斌],分享數(shù)據(jù)科學(xué)相關(guān)知識
什么是數(shù)據(jù)建模?數(shù)據(jù)建模有什么優(yōu)點(diǎn)和缺點(diǎn)?
最流行的如下
1。最基本的Excel:操作簡單,易學(xué),數(shù)據(jù)量小,使用方便
2。SPSS:內(nèi)置了很多現(xiàn)成的分析工具,不能直接編碼應(yīng)用數(shù)據(jù)分析模式,可以大大提高數(shù)據(jù)量,結(jié)論報(bào)告也很專業(yè);缺點(diǎn),不太好定制分析模式SAS和R語言:需要一定的代碼庫,網(wǎng)上有開源的代碼包,你可以用,入門門檻比較高
最后,根據(jù)你需要處理的數(shù)據(jù)量和分析方法,選擇自己的軟件進(jìn)行分析
希望對你有所幫助
我不知道你想比較兩組數(shù)據(jù)是什么,但這種方法在許多國家是常用的元統(tǒng)計(jì)分析方法,如聚類分析、貝葉斯分類等。建議閱讀有關(guān)多元統(tǒng)計(jì)分析的書籍。