大數(shù)據(jù)分析工具及建模設(shè)計(jì)方法 如何做好大數(shù)據(jù)關(guān)聯(lián)分析?
如何做好大數(shù)據(jù)關(guān)聯(lián)分析?大數(shù)據(jù)的技術(shù)大數(shù)據(jù)技術(shù)除了:1)數(shù)據(jù)采集:ETL工具全權(quán)負(fù)責(zé)將廣泛分布的、異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、兩個(gè)平面數(shù)據(jù)文件等抽取到原先中間層后接受可以清洗、轉(zhuǎn)換、集成顯卡,最
如何做好大數(shù)據(jù)關(guān)聯(lián)分析?
大數(shù)據(jù)的技術(shù)大數(shù)據(jù)技術(shù)除了:
1)數(shù)據(jù)采集:ETL工具全權(quán)負(fù)責(zé)將廣泛分布的、異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、兩個(gè)平面數(shù)據(jù)文件等抽取到原先中間層后接受可以清洗、轉(zhuǎn)換、集成顯卡,最后運(yùn)行程序到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,擁有聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
2)數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL等。
3)基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。
4)數(shù)據(jù)處理:自然語(yǔ)言處理(NLP,Natural Language Processing)是做研究人與計(jì)算機(jī)交互的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。處理自然語(yǔ)言的關(guān)鍵是要讓計(jì)算機(jī)”表述”自然語(yǔ)言,因?yàn)樽匀徽Z(yǔ)言處理又就是自然語(yǔ)言理解也一般稱(chēng)計(jì)算語(yǔ)言學(xué)。無(wú)非它是語(yǔ)言信息處理的一個(gè)分支,再者它是人工智能的核心課題之一。
5)統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異講、咨詢(xún)分析、T檢驗(yàn)、方差分析、卡方講、偏咨詢(xún)分析、相隔總結(jié)、回歸分析、簡(jiǎn)單的生存分析、多元回歸分析、回歸常態(tài)、回歸預(yù)測(cè)國(guó)家與殘差分析什么、嶺降臨、線性回歸模型分析、曲線估計(jì)、因子分析、聚類(lèi)分析、主成分分析、因子分析、迅速聚類(lèi)法與聚類(lèi)法、區(qū)分分析什么、不對(duì)應(yīng)分析、多元按分析(最優(yōu)方案尺度分析什么)、bootstrap技術(shù)等等。
6)數(shù)據(jù)挖掘:分類(lèi)劃分(Classification)、估計(jì)也(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygrouping求求求associationrule)、聚類(lèi)(Clustering)、描述和可視化、DescriptionwellVisualization)、緊張數(shù)據(jù)類(lèi)型瘋狂挖掘(Text,Web,圖形圖像,視頻,音頻等)模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。7)結(jié)果顯現(xiàn)出:云計(jì)算、標(biāo)簽云、關(guān)系圖等。
一、搭建中大數(shù)據(jù)分析平臺(tái)對(duì)付海量的資源的各種來(lái)源的數(shù)據(jù),該如何對(duì)這些零散的數(shù)據(jù)參與最有效的分析,得到當(dāng)價(jià)信息一直在是大數(shù)據(jù)領(lǐng)域研究的熱點(diǎn)問(wèn)題。、、
在壘建大數(shù)據(jù)分析平臺(tái)之前,要先比較明確業(yè)務(wù)場(chǎng)景場(chǎng)景在內(nèi)用戶的需求,按照大數(shù)據(jù)分析平臺(tái),是想能夠得到哪些有價(jià)值的信息,要接入的數(shù)據(jù)有哪些,應(yīng)明確基于場(chǎng)景業(yè)務(wù)需求的大數(shù)據(jù)平臺(tái)要必須具備的基本都的功能,來(lái)改變平臺(tái)搭建過(guò)程中建議使用的大數(shù)據(jù)處理工具和框架。(1)操作系統(tǒng)的選擇
操作系統(tǒng)就像使用開(kāi)源版的RedHat、Centos或者Debian充當(dāng)?shù)讓拥臉?gòu)建體系平臺(tái),要依據(jù)大數(shù)據(jù)平臺(tái)所要搭建的數(shù)據(jù)分析工具可以不允許的系統(tǒng),正確的決定操作系統(tǒng)的版本。
(2)堆建Hadoop集群Hadoop另外一個(gè)開(kāi)發(fā)和運(yùn)行如何處理極大規(guī)模數(shù)據(jù)的軟件平臺(tái),利用了在大量的便宜的東西計(jì)算機(jī)混編的集群中對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算。Hadoop框架中最核心的設(shè)計(jì)是HDFS和MapReduce,HDFS是一個(gè)相同高度容錯(cuò)性的系統(tǒng),適合我部署在廉價(jià)的機(jī)器上,還能夠提供給高吞吐量的數(shù)據(jù)訪問(wèn),區(qū)分于那些有著超級(jí)小數(shù)據(jù)集的應(yīng)用程序;MapReduce是一套可以從海量的數(shù)據(jù)中再提取數(shù)據(jù)后來(lái)返回結(jié)果集的編程模型。在生產(chǎn)實(shí)踐應(yīng)用中,Hadoop的很合適應(yīng)用于大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)的分析應(yīng)用,適合我服務(wù)什么于幾千臺(tái)到幾萬(wàn)臺(tái)大的服務(wù)器的集群運(yùn)行,支持PB級(jí)別的存儲(chǔ)容量。
(3)你選擇數(shù)據(jù)接入和預(yù)處理工具
遇到各種來(lái)源的數(shù)據(jù),數(shù)據(jù)接入應(yīng)該是將這些零散的數(shù)據(jù)整合在一起,看專(zhuān)業(yè)下來(lái)接受分析。數(shù)據(jù)接入要注意除開(kāi)文件日志的接入、數(shù)據(jù)庫(kù)日志的接入、關(guān)系型數(shù)據(jù)庫(kù)的接入和應(yīng)用程序等的接入,數(shù)據(jù)接入具體方法的工具有Flume,Logstash,NDC(網(wǎng)易數(shù)據(jù)運(yùn)河系統(tǒng)),sqoop等。相對(duì)于實(shí)時(shí)性要求比較比較高的業(yè)務(wù)場(chǎng)景,比如說(shuō)對(duì)修真者的存在于社交網(wǎng)站、新聞等的數(shù)據(jù)信息流要參與快速的處理綜合反饋,那么數(shù)據(jù)的接入是可以建議使用開(kāi)源的Strom,Sparkstreaming等。
數(shù)據(jù)預(yù)處理是在海量的數(shù)據(jù)中提純出和用特征,成立寬表,創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),會(huì)建議使用到HiveSQL,SparkSQL和Impala等工具。與此同時(shí)業(yè)務(wù)量的增多,不需要進(jìn)行訓(xùn)練和徹底清洗的數(shù)據(jù)也會(huì)變得異常越發(fā)急切,這個(gè)可以使用azkaban或是oozie作為工作流調(diào)度引擎,用來(lái)幫忙解決有多個(gè)hadoop或是spark等計(jì)算任務(wù)之間的依戀關(guān)系問(wèn)題。
(4)數(shù)據(jù)存儲(chǔ)
除了Hadoop中已廣泛應(yīng)用于數(shù)據(jù)存儲(chǔ)的HDFS,具體用法的有分布式、向大列的開(kāi)放源代碼數(shù)據(jù)庫(kù)Hbase,HBase是一種key/value系統(tǒng),布署在HDFS上,與Hadoop完全不一樣,HBase的目標(biāo)主要是依賴(lài)性太強(qiáng)橫向擴(kuò)展,按照不斷地的提高廉價(jià)的大規(guī)模商用服務(wù)器,提高計(jì)算和存儲(chǔ)能力。而hadoop的資源管理器Yarn,可以不為上層應(yīng)用能提供統(tǒng)一的資源管理和調(diào)度,為集群在利用率、資源統(tǒng)一規(guī)定等方面受到那巨大的好處。
(5)選擇數(shù)據(jù)挖掘工具
Hive這個(gè)可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫(kù)表,并需要提供HQL的查詢(xún)功能,它是成立在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)架構(gòu),是是為會(huì)減少M(fèi)apReduce匯編語(yǔ)言工作的批處理系統(tǒng),它的出現(xiàn)可以讓那些專(zhuān)精SQL技能、但是不熟得不能再熟MapReduce、編程能力較弱和不最擅長(zhǎng)Java的用戶都能夠在HDFS大規(guī)模行動(dòng)數(shù)據(jù)集上挺好的依靠SQL語(yǔ)言查詢(xún)、匯總、分析數(shù)據(jù)。Impala是對(duì)Hive的一個(gè)補(bǔ)充,可以不基于高效的SQL查詢(xún),但是Impala將整個(gè)查詢(xún)過(guò)程分成了一個(gè)負(fù)責(zé)執(zhí)行計(jì)劃樹(shù),而不是噼里啪啦的MapReduce任務(wù),而言Hive有更好的并發(fā)性和盡量避免了不必要的中間sort和shuffle。
是可以對(duì)數(shù)據(jù)進(jìn)行建模分析,會(huì)應(yīng)用機(jī)器學(xué)習(xí)相關(guān)的知識(shí),廣泛的機(jī)器學(xué)習(xí)算法,例如貝葉斯、邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、協(xié)同過(guò)濾等。
(6)數(shù)據(jù)的可視化這些作為輸出API
是對(duì)如何處理得到的數(shù)據(jù)是可以對(duì)接主流的BI系統(tǒng),例如國(guó)外的Tableau、Qlikview、PowrerBI等,國(guó)內(nèi)的SmallBI和新興的網(wǎng)易有數(shù)(可免費(fèi)試用)等,將結(jié)果接受可視化,應(yīng)用于決策分析;或是回流到線上,意見(jiàn)線上業(yè)務(wù)的發(fā)展。
二、大數(shù)據(jù)分析1.可視化分析
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專(zhuān)家,同時(shí)還有普通用戶,只不過(guò)他們二者相對(duì)于大數(shù)據(jù)分析最基本的要求那是多維分析,畢竟可視化分析都能夠直觀的呈現(xiàn)大數(shù)據(jù)特點(diǎn),同時(shí)能夠相當(dāng)太容易被讀者所接受,就有如看圖說(shuō)話一般簡(jiǎn)單明了。
2.數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心那就是大數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于組件完全不同的數(shù)據(jù)類(lèi)型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備什么的特點(diǎn),也恰恰而且這些被全世界統(tǒng)計(jì)學(xué)家所最有實(shí)力的各種統(tǒng)計(jì)方法(這個(gè)可以稱(chēng)之為真理)才能進(jìn)入到數(shù)據(jù)內(nèi)部,挖掘出最牛叉的價(jià)值。另外一個(gè)方面也是只不過(guò)有這些數(shù)據(jù)挖掘的算法才能更迅速的處理大數(shù)據(jù),如果一個(gè)算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價(jià)值也就無(wú)從說(shuō)起了。
3.預(yù)測(cè)性分析
大數(shù)據(jù)分析到了最后要的應(yīng)用領(lǐng)域之一是預(yù)測(cè)性分析,從大數(shù)據(jù)中挖掘出特點(diǎn),按照科學(xué)的建立模型,結(jié)束后便可以通過(guò)模型帶入新的數(shù)據(jù),最終達(dá)到預(yù)估未來(lái)的數(shù)據(jù)。
4.語(yǔ)義引擎
非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析給了新的挑戰(zhàn),我們是需要一套工具系統(tǒng)的去分析什么,提煉數(shù)據(jù)。語(yǔ)義引擎是需要設(shè)計(jì)什么到有起碼的人工智能以絕對(duì)能從數(shù)據(jù)中拒絕地分離提取信息。
5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
大數(shù)據(jù)分析離不開(kāi)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和快速有效的數(shù)據(jù)管理,哪怕在學(xué)術(shù)研究肯定在商業(yè)應(yīng)用領(lǐng)域,都都能夠能保證分析什么結(jié)果的假的和有價(jià)值。大數(shù)據(jù)分析的基礎(chǔ)那是以上五個(gè)方面,當(dāng)然更深入大數(shù)據(jù)分析的話,有很多很多極其有特點(diǎn)的、更深一步的、越來(lái)越什么專(zhuān)業(yè)的大數(shù)據(jù)分析方法。
三、數(shù)據(jù)處理1.大數(shù)據(jù)去處理之一
喂養(yǎng)靈獸大數(shù)據(jù)的采集是指依靠多個(gè)數(shù)據(jù)庫(kù)來(lái)收得到內(nèi)心的微笑客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),但是用戶也可以是從這些數(shù)據(jù)庫(kù)來(lái)通過(guò)簡(jiǎn)單的網(wǎng)站查詢(xún)和處理工作。比如,電商會(huì)建議使用現(xiàn)代的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常應(yīng)用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,是因?yàn)槎锌赡軙?huì)有成千上萬(wàn)的用戶來(lái)參與訪問(wèn)和操作,比如火車(chē)票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)至少上百萬(wàn),因此是需要在哪采端布署大量數(shù)據(jù)庫(kù)才能勉力支撐。但是要如何在這些數(shù)據(jù)庫(kù)之間接受負(fù)載均衡和分片確實(shí)是是要深度的思考和設(shè)計(jì)。
2.大數(shù)據(jù)處理之二
導(dǎo)入/預(yù)處理可是再采集端本身會(huì)有很多數(shù)據(jù)庫(kù),只不過(guò)如果要對(duì)這些海量數(shù)據(jù)接受管用的分析,肯定肯定將這些無(wú)論是前端的數(shù)據(jù)導(dǎo)入到一個(gè)分散的大型手機(jī)分布式數(shù)據(jù)庫(kù),也可以分布式存儲(chǔ)集群,因此可以在導(dǎo)入基礎(chǔ)上做一些很簡(jiǎn)單徹底清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用無(wú)論是Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算出,來(lái)滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)要注意是導(dǎo)入到的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量每天都會(huì)達(dá)到百兆,甚至于百兆級(jí)別。
3.大數(shù)據(jù)處理之三
做統(tǒng)計(jì)/分析統(tǒng)計(jì)與分析主要注意利用分布式數(shù)據(jù)庫(kù),或則分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于周身的海量數(shù)據(jù)并且其它的分析和分類(lèi)匯總等,以滿足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)都用到EMC的GreenPlum、Oracle的Exadata,這些設(shè)計(jì)和實(shí)現(xiàn)MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者實(shí)現(xiàn)半結(jié)構(gòu)化數(shù)據(jù)的需求也可以不使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析比較復(fù)雜的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極高的占用。
4.大數(shù)據(jù)處理之四
挖掘與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘就像沒(méi)有什么預(yù)先設(shè)置好的主題,主要注意是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,進(jìn)而可起預(yù)測(cè)國(guó)家(Predict)的效果,進(jìn)而基于一些高級(jí)別數(shù)據(jù)分析的需求。都很有名算法有主要是用于聚類(lèi)的Kmeans、主要是用于統(tǒng)計(jì)出來(lái)怎么學(xué)習(xí)的SVM和主要是用于分類(lèi)的NaiveBayes,通常不使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是主要是用于挖掘的算法很復(fù)雜,并且計(jì)算出牽涉的數(shù)據(jù)量和計(jì)算量都很大,具體用法數(shù)據(jù)挖掘算法都以單線程重點(diǎn)。
數(shù)據(jù)模型的四種類(lèi)型?
數(shù)據(jù)模型是對(duì)現(xiàn)實(shí)的東西世界數(shù)據(jù)的模擬,是一個(gè)研究工具,利用這個(gè)研究工具我們是可以要好地把現(xiàn)實(shí)中的事物抽象為計(jì)算機(jī)可處理的數(shù)據(jù)。數(shù)據(jù)模型按差別的應(yīng)用層次四等分三種類(lèi)型:各是概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理數(shù)據(jù)模型。從數(shù)據(jù)庫(kù)角度而言,層次模型、網(wǎng)狀模型和關(guān)系模型,是三種最重要的數(shù)據(jù)模型。數(shù)據(jù)模型(DataModel)是數(shù)據(jù)特征的抽象。數(shù)據(jù)(Data)是具體解釋事物的符號(hào)記錄,模型(Model)是現(xiàn)實(shí)世界的抽象。數(shù)據(jù)模型從抽象概念層次上具體解釋了系統(tǒng)的靜態(tài)特征、動(dòng)態(tài)行為和約束條件,為數(shù)據(jù)庫(kù)系統(tǒng)的信息意思是與操作提供給了一個(gè)抽象的框架。數(shù)據(jù)模型所描述的內(nèi)容有三部分:數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作和數(shù)據(jù)約束。
數(shù)據(jù)庫(kù)技術(shù)發(fā)展到現(xiàn)在,主要注意有三種數(shù)據(jù)模型:層次數(shù)據(jù)模型、網(wǎng)狀數(shù)據(jù)模型、關(guān)系數(shù)據(jù)模型。
數(shù)據(jù)模型按不同的應(yīng)用層次等分三種類(lèi)型:分別是概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理數(shù)據(jù)模型。
數(shù)據(jù)分析中常見(jiàn)的數(shù)據(jù)模型:行為事件講、漏斗分析模型、留存講模型、分布分析模型、直接點(diǎn)擊分析什么模型、用戶行為路徑分析模型、用戶分群分析模型和屬性分析模型等。