做數(shù)據(jù)挖掘的必備知識 數(shù)據(jù)挖掘的主要研究有哪些方向?
數(shù)據(jù)挖掘的主要研究有哪些方向?數(shù)據(jù)挖掘的主要研究方向包括算法研究和應(yīng)用研究。1.數(shù)據(jù)挖掘算法研究。目前數(shù)據(jù)挖掘的主流算法有統(tǒng)計(jì)學(xué)習(xí)算法和機(jī)器學(xué)習(xí)算法(監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。),而最流行的機(jī)
數(shù)據(jù)挖掘的主要研究有哪些方向?
數(shù)據(jù)挖掘的主要研究方向包括算法研究和應(yīng)用研究。
1.數(shù)據(jù)挖掘算法研究。目前數(shù)據(jù)挖掘的主流算法有統(tǒng)計(jì)學(xué)習(xí)算法和機(jī)器學(xué)習(xí)算法(監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。),而最流行的機(jī)器學(xué)習(xí)算法是深度神經(jīng)網(wǎng)絡(luò)算法,其主要任務(wù)是尋找更高級的算法或改進(jìn)。這些算法使得它在數(shù)據(jù)挖掘中效率更高,或者把這些算法做成工具,使用起來更方便,降低了算法的門檻。
2.應(yīng)用研究,主要在大數(shù)據(jù)分析領(lǐng)域。數(shù)據(jù)挖掘在人文社會科學(xué)、經(jīng)濟(jì)、醫(yī)療、科學(xué)與工程等領(lǐng)域有著很強(qiáng)的應(yīng)用前景。
第一步,選擇一個自己擅長的領(lǐng)域,想辦法獲取這個領(lǐng)域的數(shù)據(jù)。這一步看似簡單,其實(shí)很難。一方面需要的數(shù)據(jù)量非常大,非常全面,另一方面需要盡可能保證獲得數(shù)據(jù)的真實(shí)性。這個前提沒有做好,下面的分析就沒有意義了。。
第二步,數(shù)據(jù)清洗,必須了解數(shù)據(jù)清洗的常用算法,冗余清洗,數(shù)據(jù)的標(biāo)準(zhǔn)化。
第三步,選擇合適的算法,不斷做實(shí)驗(yàn),得出實(shí)驗(yàn)結(jié)論。
第四步,建立適當(dāng)?shù)慕Y(jié)論評價標(biāo)準(zhǔn),判斷第三步的結(jié)論是否具有現(xiàn)實(shí)意義。如果結(jié)論明顯錯誤或不一致,則重新選擇算法。如果換了多個算法結(jié)論還是沒有意義,就認(rèn)為數(shù)據(jù)有問題,很可能需要重新找數(shù)據(jù)或者考試??紤]到前期資料不充分,需要補(bǔ)充其他資料進(jìn)行再分析。
另外,數(shù)據(jù)挖掘需要的知識體系至少包括統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)庫。推薦的入學(xué)門檻是985碩士 本科或以上學(xué)歷。
沒有計(jì)算機(jī)基礎(chǔ)應(yīng)該如何學(xué)習(xí)大數(shù)據(jù)知識?
學(xué)習(xí)程序開發(fā)可以在一些開源平臺上瀏覽更多的項(xiàng)目、博客、問答。知名平臺如github,stackoverflow。
在github上搜索大數(shù)據(jù),會出現(xiàn)相關(guān)項(xiàng)目。有大數(shù)據(jù)入門指南的項(xiàng)目挺好的,可以借鑒一下。地址:如果限制訪問,可以點(diǎn)贊評論。
以下是取自項(xiàng)目的插圖和章節(jié)導(dǎo)航。
附:項(xiàng)目相關(guān)知識點(diǎn)如下
序
大數(shù)據(jù)學(xué)習(xí)路線
大數(shù)據(jù)技術(shù)堆棧思維導(dǎo)圖
大數(shù)據(jù)常用軟件安裝指南
一、Hadoop
分布式文件存儲系統(tǒng)-HDFS
MapReduce,一個分布式計(jì)算框架
集群資源管理器-yarn
Hadoop單機(jī)偽集群環(huán)境的構(gòu)建
Hadoop集群環(huán)境構(gòu)建
HDFS通用Shell命令
HDFS Java API的使用
基于Zookeeper構(gòu)建Hadoop高可用性集群
Second, the hive
Hive簡介和核心概念
Linux環(huán)境下Hive的安裝和部署
Hive CLI和Beeline命令行的基本用法
配置單元公共DDL操作
蜂巢分區(qū)表和桶表
配置單元視圖和索引
Hive常用的DML操作
蜂巢數(shù)據(jù)查詢詳解
Third, sparks
Spark core :
Spark簡介
星火開發(fā)環(huán)境建設(shè)
彈性數(shù)據(jù)集RDD
RDD常用運(yùn)算符詳解
Spark操作模式和作業(yè)提交
火花累加器和廣播變量
基于Zookeeper構(gòu)建Spark高可用性集群
Spark SQL :
數(shù)據(jù)框架和數(shù)據(jù)集
結(jié)構(gòu)化API的基本用法
Spark SQL外部數(shù)據(jù)源
Spark SQL的常用聚合函數(shù)
Spark SQL connection operation
Spark flow:
Brief introduction of spark flow
Basic operation of spark flow
Spark flow integrated waterway
Spark flow integration Kafka
Fourth, the storm
暴雨和河流處理簡介
風(fēng)暴核心概念詳解
風(fēng)暴單機(jī)環(huán)境建設(shè)
風(fēng)暴集群環(huán)境建設(shè)
風(fēng)暴規(guī)劃模型詳解
風(fēng)暴工程三種包裝的對比分析
暴風(fēng)集成Redis詳解
Storm integration HDFS/HBase
Storm integration Kafka
動詞 (verb的縮寫)弗林克
Flink核心概念概述
Flink開發(fā)環(huán)境建設(shè)
Flink data source
Flink data conversion
Flink數(shù)據(jù)接收器
Flink窗口模型
Flink狀態(tài)管理和檢查點(diǎn)機(jī)制
Flink standalone cluster deployment
六、HBase
Hbase簡介
HBase系統(tǒng)架構(gòu)和數(shù)據(jù)結(jié)構(gòu)
Basic environment construction of HBase (independent/pseudo-distributed mode)
HBase集群環(huán)境的構(gòu)建
HBase常見Shell命令
HBase Java API
HBase過濾器的詳細(xì)說明
HBase協(xié)處理器的詳細(xì)說明
h基本災(zāi)難恢復(fù)和備份
The middle layer of structured query language of HBase-Phoenix
Spring /Spring Boot Integration of Mibatis Phoenix
Seven, Kafka
卡夫卡簡介
基于Zookeeper構(gòu)建Kafka高可用性集群
卡夫卡制作人詳解
卡夫卡消費(fèi)者詳解
深刻理解卡夫卡的復(fù)制機(jī)制
Eight city zoo.
Zookeeper簡介和核心概念
Zookeeper單機(jī)環(huán)境和集群環(huán)境構(gòu)建
City zoo often uses shell commands.
City zoo Java Client-Apache Curator
City zoo ACL access control
Nine, sink
水槽的簡介和基本用途
Linux環(huán)境下Flume的安裝和部署
Waterway integration Kafka
十、Sqoop
Sqoop的介紹和安裝
Sqoop的基本用法
Xi. Azkaban
Introduction to Azkaban
Azkaban3.x的編譯和部署
Use of Azkaban Process 1.0
Use of Azkaban Process 2.0
十二。斯卡拉
Scala介紹及開發(fā)環(huán)境配置
基本數(shù)據(jù)類型和運(yùn)算符
過程控制語句
陣列-陣列
器械包類型匯總
列表集,常用的集合類型之一
常見的集合類型之一——map tuple
班級
繼承和特點(diǎn)
函數(shù)閉包的cori化
模式匹配
類型參數(shù)
隱式轉(zhuǎn)換和隱式參數(shù)
十三。公共內(nèi)容
大數(shù)據(jù)應(yīng)用程序的常見打包方法
附言
推薦數(shù)據(jù)共享和開發(fā)工具