做數(shù)據(jù)挖掘的必備知識(shí) 數(shù)據(jù)挖掘的主要研究有哪些方向?
數(shù)據(jù)挖掘的主要研究有哪些方向?數(shù)據(jù)挖掘的主要研究方向包括算法研究和應(yīng)用研究。1.數(shù)據(jù)挖掘算法研究。目前數(shù)據(jù)挖掘的主流算法有統(tǒng)計(jì)學(xué)習(xí)算法和機(jī)器學(xué)習(xí)算法(監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。),而最流行的機(jī)
數(shù)據(jù)挖掘的主要研究有哪些方向?
數(shù)據(jù)挖掘的主要研究方向包括算法研究和應(yīng)用研究。
1.數(shù)據(jù)挖掘算法研究。目前數(shù)據(jù)挖掘的主流算法有統(tǒng)計(jì)學(xué)習(xí)算法和機(jī)器學(xué)習(xí)算法(監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。),而最流行的機(jī)器學(xué)習(xí)算法是深度神經(jīng)網(wǎng)絡(luò)算法,其主要任務(wù)是尋找更高級(jí)的算法或改進(jìn)。這些算法使得它在數(shù)據(jù)挖掘中效率更高,或者把這些算法做成工具,使用起來(lái)更方便,降低了算法的門檻。
2.應(yīng)用研究,主要在大數(shù)據(jù)分析領(lǐng)域。數(shù)據(jù)挖掘在人文社會(huì)科學(xué)、經(jīng)濟(jì)、醫(yī)療、科學(xué)與工程等領(lǐng)域有著很強(qiáng)的應(yīng)用前景。
第一步,選擇一個(gè)自己擅長(zhǎng)的領(lǐng)域,想辦法獲取這個(gè)領(lǐng)域的數(shù)據(jù)。這一步看似簡(jiǎn)單,其實(shí)很難。一方面需要的數(shù)據(jù)量非常大,非常全面,另一方面需要盡可能保證獲得數(shù)據(jù)的真實(shí)性。這個(gè)前提沒(méi)有做好,下面的分析就沒(méi)有意義了。。
第二步,數(shù)據(jù)清洗,必須了解數(shù)據(jù)清洗的常用算法,冗余清洗,數(shù)據(jù)的標(biāo)準(zhǔn)化。
第三步,選擇合適的算法,不斷做實(shí)驗(yàn),得出實(shí)驗(yàn)結(jié)論。
第四步,建立適當(dāng)?shù)慕Y(jié)論評(píng)價(jià)標(biāo)準(zhǔn),判斷第三步的結(jié)論是否具有現(xiàn)實(shí)意義。如果結(jié)論明顯錯(cuò)誤或不一致,則重新選擇算法。如果換了多個(gè)算法結(jié)論還是沒(méi)有意義,就認(rèn)為數(shù)據(jù)有問(wèn)題,很可能需要重新找數(shù)據(jù)或者考試??紤]到前期資料不充分,需要補(bǔ)充其他資料進(jìn)行再分析。
另外,數(shù)據(jù)挖掘需要的知識(shí)體系至少包括統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)。推薦的入學(xué)門檻是985碩士 本科或以上學(xué)歷。
沒(méi)有計(jì)算機(jī)基礎(chǔ)應(yīng)該如何學(xué)習(xí)大數(shù)據(jù)知識(shí)?
學(xué)習(xí)程序開(kāi)發(fā)可以在一些開(kāi)源平臺(tái)上瀏覽更多的項(xiàng)目、博客、問(wèn)答。知名平臺(tái)如github,stackoverflow。
在github上搜索大數(shù)據(jù),會(huì)出現(xiàn)相關(guān)項(xiàng)目。有大數(shù)據(jù)入門指南的項(xiàng)目挺好的,可以借鑒一下。地址:如果限制訪問(wèn),可以點(diǎn)贊評(píng)論。
以下是取自項(xiàng)目的插圖和章節(jié)導(dǎo)航。
附:項(xiàng)目相關(guān)知識(shí)點(diǎn)如下
序
大數(shù)據(jù)學(xué)習(xí)路線
大數(shù)據(jù)技術(shù)堆棧思維導(dǎo)圖
大數(shù)據(jù)常用軟件安裝指南
一、Hadoop
分布式文件存儲(chǔ)系統(tǒng)-HDFS
MapReduce,一個(gè)分布式計(jì)算框架
集群資源管理器-yarn
Hadoop單機(jī)偽集群環(huán)境的構(gòu)建
Hadoop集群環(huán)境構(gòu)建
HDFS通用Shell命令
HDFS Java API的使用
基于Zookeeper構(gòu)建Hadoop高可用性集群
Second, the hive
Hive簡(jiǎn)介和核心概念
Linux環(huán)境下Hive的安裝和部署
Hive CLI和Beeline命令行的基本用法
配置單元公共DDL操作
蜂巢分區(qū)表和桶表
配置單元視圖和索引
Hive常用的DML操作
蜂巢數(shù)據(jù)查詢?cè)斀?/p>
Third, sparks
Spark core :
Spark簡(jiǎn)介
星火開(kāi)發(fā)環(huán)境建設(shè)
彈性數(shù)據(jù)集RDD
RDD常用運(yùn)算符詳解
Spark操作模式和作業(yè)提交
火花累加器和廣播變量
基于Zookeeper構(gòu)建Spark高可用性集群
Spark SQL :
數(shù)據(jù)框架和數(shù)據(jù)集
結(jié)構(gòu)化API的基本用法
Spark SQL外部數(shù)據(jù)源
Spark SQL的常用聚合函數(shù)
Spark SQL connection operation
Spark flow:
Brief introduction of spark flow
Basic operation of spark flow
Spark flow integrated waterway
Spark flow integration Kafka
Fourth, the storm
暴雨和河流處理簡(jiǎn)介
風(fēng)暴核心概念詳解
風(fēng)暴單機(jī)環(huán)境建設(shè)
風(fēng)暴集群環(huán)境建設(shè)
風(fēng)暴規(guī)劃模型詳解
風(fēng)暴工程三種包裝的對(duì)比分析
暴風(fēng)集成Redis詳解
Storm integration HDFS/HBase
Storm integration Kafka
動(dòng)詞 (verb的縮寫)弗林克
Flink核心概念概述
Flink開(kāi)發(fā)環(huán)境建設(shè)
Flink data source
Flink data conversion
Flink數(shù)據(jù)接收器
Flink窗口模型
Flink狀態(tài)管理和檢查點(diǎn)機(jī)制
Flink standalone cluster deployment
六、HBase
Hbase簡(jiǎn)介
HBase系統(tǒng)架構(gòu)和數(shù)據(jù)結(jié)構(gòu)
Basic environment construction of HBase (independent/pseudo-distributed mode)
HBase集群環(huán)境的構(gòu)建
HBase常見(jiàn)Shell命令
HBase Java API
HBase過(guò)濾器的詳細(xì)說(shuō)明
HBase協(xié)處理器的詳細(xì)說(shuō)明
h基本災(zāi)難恢復(fù)和備份
The middle layer of structured query language of HBase-Phoenix
Spring /Spring Boot Integration of Mibatis Phoenix
Seven, Kafka
卡夫卡簡(jiǎn)介
基于Zookeeper構(gòu)建Kafka高可用性集群
卡夫卡制作人詳解
卡夫卡消費(fèi)者詳解
深刻理解卡夫卡的復(fù)制機(jī)制
Eight city zoo.
Zookeeper簡(jiǎn)介和核心概念
Zookeeper單機(jī)環(huán)境和集群環(huán)境構(gòu)建
City zoo often uses shell commands.
City zoo Java Client-Apache Curator
City zoo ACL access control
Nine, sink
水槽的簡(jiǎn)介和基本用途
Linux環(huán)境下Flume的安裝和部署
Waterway integration Kafka
十、Sqoop
Sqoop的介紹和安裝
Sqoop的基本用法
Xi. Azkaban
Introduction to Azkaban
Azkaban3.x的編譯和部署
Use of Azkaban Process 1.0
Use of Azkaban Process 2.0
十二。斯卡拉
Scala介紹及開(kāi)發(fā)環(huán)境配置
基本數(shù)據(jù)類型和運(yùn)算符
過(guò)程控制語(yǔ)句
陣列-陣列
器械包類型匯總
列表集,常用的集合類型之一
常見(jiàn)的集合類型之一——map tuple
班級(jí)
繼承和特點(diǎn)
函數(shù)閉包的cori化
模式匹配
類型參數(shù)
隱式轉(zhuǎn)換和隱式參數(shù)
十三。公共內(nèi)容
大數(shù)據(jù)應(yīng)用程序的常見(jiàn)打包方法
附言
推薦數(shù)據(jù)共享和開(kāi)發(fā)工具