常用數(shù)據(jù)挖掘工具和方法是什么 數(shù)據(jù)挖掘的主要學(xué)科來(lái)源?
數(shù)據(jù)挖掘的主要學(xué)科來(lái)源?數(shù)據(jù)挖掘起源于許多學(xué)科,其中最重要的是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。統(tǒng)計(jì)學(xué)起源于數(shù)學(xué),強(qiáng)調(diào)數(shù)學(xué)的準(zhǔn)確性;機(jī)器學(xué)習(xí)主要起源于計(jì)算機(jī)實(shí)踐,更傾向于實(shí)踐和主動(dòng)檢測(cè)某種東西來(lái)確定其表現(xiàn)形式。數(shù)據(jù)庫(kù)
數(shù)據(jù)挖掘的主要學(xué)科來(lái)源?
數(shù)據(jù)挖掘起源于許多學(xué)科,其中最重要的是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。統(tǒng)計(jì)學(xué)起源于數(shù)學(xué),強(qiáng)調(diào)數(shù)學(xué)的準(zhǔn)確性;機(jī)器學(xué)習(xí)主要起源于計(jì)算機(jī)實(shí)踐,更傾向于實(shí)踐和主動(dòng)檢測(cè)某種東西來(lái)確定其表現(xiàn)形式。
數(shù)據(jù)庫(kù)需要用哪些軟件?
這類(lèi)軟件主要用于更專(zhuān)業(yè)的數(shù)據(jù)分析和挖掘,尤其是在銀行、金融、保險(xiǎn)等行業(yè)。
SPSS和SAS都是用于統(tǒng)計(jì)分析的,側(cè)重于統(tǒng)計(jì)知識(shí)的一些基本應(yīng)用,包括描述性統(tǒng)計(jì)、方差分析、因子分析、主成分分析、基本回歸、分布檢驗(yàn)等。SPSS在市場(chǎng)調(diào)研中應(yīng)用廣泛,而SAS銀行的金融醫(yī)療統(tǒng)計(jì)比較多,有些難度。
r語(yǔ)言似乎是一種綜合的數(shù)據(jù)分析工具,集統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化于一體。
展開(kāi)來(lái)說(shuō)說(shuō)數(shù)據(jù)分析~
這些數(shù)據(jù)分析工具的使用還是要看需求,每個(gè)企業(yè)應(yīng)用的選擇和方法都不一樣。數(shù)據(jù)分析的概念非常廣泛。從IT的角度來(lái)看,數(shù)據(jù)分析工具在實(shí)際應(yīng)用中可以分為兩個(gè)維度:
第一個(gè)維度:數(shù)據(jù)存儲(chǔ)層-數(shù)據(jù)報(bào)表層-數(shù)據(jù)分析層-數(shù)據(jù)展現(xiàn)層。
第二個(gè)維度:用戶級(jí)-部門(mén)級(jí)-企業(yè)級(jí)-BI級(jí)。
1.數(shù)據(jù)存儲(chǔ)層
從數(shù)據(jù)存儲(chǔ)設(shè)計(jì)到數(shù)據(jù)庫(kù)概念和數(shù)據(jù)庫(kù)語(yǔ)言,這方面不必深究,但至少要了解數(shù)據(jù)的存儲(chǔ)、基本結(jié)構(gòu)和數(shù)據(jù)類(lèi)型。SQL查詢(xún)語(yǔ)言必不可少,精通最好。我們可以從選擇查詢(xún)、更新修改、刪除刪除和插入插入的基本結(jié)構(gòu)和讀取開(kāi)始。
Access2003、Access07等
這是最基本的個(gè)人數(shù)據(jù)庫(kù),常用于個(gè)人或部分基礎(chǔ)數(shù)據(jù)存儲(chǔ);部門(mén)或互聯(lián)網(wǎng)數(shù)據(jù)庫(kù)應(yīng)用必備的MySQL數(shù)據(jù)庫(kù),此時(shí)掌握SQL語(yǔ)言的數(shù)據(jù)庫(kù)結(jié)構(gòu)和數(shù)據(jù)查詢(xún)能力是關(guān)鍵;
SQL Server2005或更高版本
對(duì)于中小型企業(yè),一些大型企業(yè)也可以使用SQL Server數(shù)據(jù)庫(kù)。其實(shí)這次除了數(shù)據(jù)存儲(chǔ),還包括數(shù)據(jù)報(bào)表和數(shù)據(jù)分析,甚至數(shù)據(jù)挖掘工具也在其中;
DB2和Oracle數(shù)據(jù)庫(kù)都是大型數(shù)據(jù)庫(kù)。
,主要是企業(yè)級(jí),特別是大型企業(yè)或者有海量存儲(chǔ)數(shù)據(jù)需求的是必須的。一般大型數(shù)據(jù)庫(kù)公司都提供非常好的數(shù)據(jù)集成應(yīng)用平臺(tái);
雙電平
其實(shí)這不是一個(gè)數(shù)據(jù)庫(kù),而是建立在之前數(shù)據(jù)庫(kù)基礎(chǔ)上的企業(yè)級(jí)應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse),基于DW計(jì)算機(jī)的數(shù)據(jù)存儲(chǔ)基本上是一個(gè)商業(yè)智能平臺(tái),它集成了各種數(shù)據(jù)分析、報(bào)告、分析和展示。與BI產(chǎn)品相結(jié)合的BI級(jí)數(shù)據(jù)倉(cāng)庫(kù)也是近年來(lái)的一大趨勢(shì)。
2.報(bào)告/商務(wù)智能層
踮起腳尖存儲(chǔ)的數(shù)據(jù)需要讀取和顯示,報(bào)表工具是應(yīng)用最廣泛的工具,尤其是在。以前傳統(tǒng)的報(bào)道大多解決的是呈現(xiàn)的問(wèn)題?,F(xiàn)在的FineReport和帆板報(bào)告一樣,也會(huì)和其他應(yīng)用交叉,做數(shù)據(jù)分析報(bào)告。通過(guò)接口開(kāi)放、報(bào)表、決策報(bào)表等功能,可以訪問(wèn)數(shù)據(jù),涵蓋了早期商業(yè)智能的功能。
Tableau、Qlikview、FineBI等BI工具可分為報(bào)表層和數(shù)據(jù)展現(xiàn)層,涵蓋數(shù)據(jù)集成、數(shù)據(jù)分析和數(shù)據(jù)展現(xiàn)。FineBI和Tableau都是近年來(lái)比較優(yōu)秀的軟件,可以作為可視化的數(shù)據(jù)分析軟件,F(xiàn)ineBI可以用來(lái)從數(shù)據(jù)庫(kù)中取出數(shù)據(jù)進(jìn)行報(bào)表和可視化分析。相對(duì)來(lái)說(shuō),visual Tableau更好,但是FineBI還有另外一個(gè)身份——商業(yè)智能。
所以在大數(shù)據(jù)處理方面的能力更好。
3.數(shù)據(jù)分析層
其實(shí)這一層有很多分析工具。當(dāng)然,Excel是最常用的。
Excel軟件
首先,版本越高越好用,這是肯定的;當(dāng)然,對(duì)于excel,很多人只掌握了5%的Excel功能,而Excel是非常強(qiáng)大的,甚至可以完成所有的統(tǒng)計(jì)分析工作!但是我經(jīng)常說(shuō),學(xué)統(tǒng)計(jì)軟件不如會(huì)玩Excel這個(gè)統(tǒng)計(jì)工具。
SPSS軟件
:目前版本為18,名稱(chēng)已改為PASW統(tǒng)計(jì);;我是從3.0開(kāi)始在Dos環(huán)境下編程分析的,目前版本的變化也可以從SPSS社科統(tǒng)計(jì)軟件包的變化中看出。從關(guān)注醫(yī)學(xué)、化學(xué)開(kāi)始,我越來(lái)越關(guān)注商業(yè)分析,現(xiàn)在已經(jīng)成為一個(gè)預(yù)測(cè)分析軟件。
SAS軟件
比起SPSS,SAS其實(shí)更強(qiáng)大。SAS是一個(gè)平臺(tái),EM挖掘模塊的平臺(tái)是集成的。相對(duì)來(lái)說(shuō),SAS更難學(xué),但是如果你掌握了SAS,會(huì)更有價(jià)值,比如離散選擇模型,抽樣問(wèn)題,正交實(shí)驗(yàn)設(shè)計(jì)等。另外SAS的學(xué)習(xí)資料比較多,而且是開(kāi)放的,會(huì)有收獲!
JMP分析
:SAS的分析分支
XLstat
:Excel插件,可以完成SPSS的大部分統(tǒng)計(jì)分析功能。
4.表示層
表示層也叫數(shù)據(jù)可視化,上面每個(gè)工具都提供了幾乎一點(diǎn)點(diǎn)的展現(xiàn)功能。上面提到了FineBI和Tableau的可視化功能。其實(shí)這幾年Excel的可視化越來(lái)越好,加上一些插件,使用感更好了。
PPT:
辦公常用,用來(lái)寫(xiě)數(shù)據(jù)分析報(bào)告;
Xmindamp百度腦圖:
梳理流程,幫助思考分析,展現(xiàn)數(shù)據(jù)分析水平;
Xcelsius軟件:
Dashboard制作和數(shù)據(jù)可視化報(bào)表工具,可以直接讀取數(shù)據(jù)庫(kù),在Excel中建模,在互聯(lián)網(wǎng)上展示。最大的特點(diǎn)也是在PPT中實(shí)現(xiàn)動(dòng)態(tài)報(bào)表是可能的。
最后需要說(shuō)明的是,這種分類(lèi)并不是為了區(qū)分軟件,而是為了說(shuō)明軟件的應(yīng)用。有時(shí)候我們用數(shù)據(jù)庫(kù)做報(bào)表分析,有時(shí)候報(bào)表是分析,有時(shí)候分析是展現(xiàn);當(dāng)然,有時(shí)候呈現(xiàn)就是分析,分析也是報(bào)告,報(bào)告就是數(shù)據(jù)存儲(chǔ)!