如何做一名合格的大數(shù)據(jù)分析師 大數(shù)據(jù)工程師是做什么的?
大數(shù)據(jù)工程師是做什么的?介紹大數(shù)據(jù)工程師需要的幾項關(guān)鍵技能:1.大數(shù)據(jù)架構(gòu)的工具和組件數(shù)據(jù)工程師更注重分析基礎(chǔ)設(shè)施,因此所需技能大多以架構(gòu)為中心。2.深入了解SQL等數(shù)據(jù)庫解決方案數(shù)據(jù)工程師需要熟悉數(shù)
大數(shù)據(jù)工程師是做什么的?
介紹大數(shù)據(jù)工程師需要的幾項關(guān)鍵技能:
1.大數(shù)據(jù)架構(gòu)的工具和組件數(shù)據(jù)工程師更注重分析基礎(chǔ)設(shè)施,因此所需技能大多以架構(gòu)為中心。
2.深入了解SQL等數(shù)據(jù)庫解決方案數(shù)據(jù)工程師需要熟悉數(shù)據(jù)庫管理系統(tǒng),深入了解SQL非常重要。類似地,其他數(shù)據(jù)庫解決方案,如Cassandra或BigTable,應(yīng)該是熟悉的,因為不是每個數(shù)據(jù)庫都是按照可識別的標(biāo)準(zhǔn)構(gòu)建的。
3.數(shù)據(jù)倉庫和ETL工具數(shù)據(jù)倉庫和ETL經(jīng)驗對于數(shù)據(jù)工程師來說非常重要。Redshift或Panoply等數(shù)據(jù)倉庫解決方案以及StitchData或Segment等ETL工具非常有用。另外,數(shù)據(jù)存儲和數(shù)據(jù)檢索的體驗同樣重要,因為處理的數(shù)據(jù)量是天文數(shù)字。
4.基于Hadoop的分析(HBase、Hive、MapReduce等。)對基于Apache Hadoop的分析有深入的了解是這個領(lǐng)域非常必要的要求。總的來說,HBase,Hive,MapReduce的知識存儲是必要的。
5.編碼說到解決方案,編碼和開發(fā)能力是一個重要的優(yōu)勢(這也是很多崗位所要求的)。你要熟悉Python,C/C,Java,Perl,Golang或者其他語言,這將是非常有價值的。
6.機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)已經(jīng)成為一門標(biāo)準(zhǔn)的數(shù)據(jù)科學(xué),這一領(lǐng)域的知識可以幫助我們?yōu)轭愃频漠a(chǎn)品構(gòu)建解決方案。這種知識的另一個好處是,它使你在這個領(lǐng)域非常有價值,因為能夠 "戴兩頂帽子 "在這種情況下會讓你成為一個更強(qiáng)大的工具。
7.多種操作系統(tǒng)最后,我們需要對Unix、Linux和Solaris系統(tǒng)有深入的了解。很多數(shù)學(xué)工具都是基于這些操作系統(tǒng)的,因為它們有Windows和Mac系統(tǒng)沒有的訪問權(quán)限和特殊的硬件要求。
統(tǒng)計學(xué)的大數(shù)據(jù)分析師的前景如何?
大數(shù)據(jù)時代還是很好的。
統(tǒng)計大數(shù)據(jù)分析師的主要工作方向和要求:
通過經(jīng)驗的積累很容易解讀數(shù)據(jù)和數(shù)據(jù)指標(biāo)。通過數(shù)據(jù)分析解決業(yè)務(wù)問題。比如業(yè)務(wù)監(jiān)控,建立分析系統(tǒng),做數(shù)據(jù)產(chǎn)品。能夠?qū)?shù)據(jù)分析后的企業(yè)發(fā)展進(jìn)行評估,分析行業(yè)未來發(fā)展趨勢。
數(shù)據(jù)分析師與大數(shù)據(jù)分析師所做工作有什么區(qū)別?
很多初學(xué)者對大數(shù)據(jù)分析的概念很模糊。什么是大數(shù)據(jù)分析,能做什么,學(xué)習(xí)時走什么路線,學(xué)習(xí)后往哪里發(fā)展?很多人的印象都是大數(shù)據(jù)分析師坐在辦公室里,對著電腦敲鍵盤,和程序員差不多。這個想法是錯誤的。其實(shí)大數(shù)據(jù)分析師是一個很高大上的職業(yè)。大數(shù)據(jù)分析師獲取必要的數(shù)據(jù),分析這些數(shù)據(jù),然后從數(shù)據(jù)中發(fā)現(xiàn)一些問題,提出自己的想法。這是一個大數(shù)據(jù)分析師的基本工作內(nèi)容。
大數(shù)據(jù)工程師做什么,取決于你在數(shù)據(jù)流的哪個部分工作。從數(shù)據(jù)上游到數(shù)據(jù)下游,大致可以分為:
數(shù)據(jù)采集-gt數(shù)據(jù)清洗-gt數(shù)據(jù)存儲-gt數(shù)據(jù)分析統(tǒng)計-gt數(shù)據(jù)可視化等等。
大數(shù)據(jù)分析的內(nèi)容當(dāng)然是使用工具組件(Spark、Flume、Kafka等。)或代碼(Java、Scala等。)來實(shí)現(xiàn)以上功能。具體如下:
第一,數(shù)據(jù)收集
業(yè)務(wù)系統(tǒng)的嵌入式代碼在任何時刻都會產(chǎn)生一些分散的原始日志,這些分散的日志可以通過Flume進(jìn)行監(jiān)控和接收,實(shí)現(xiàn)分散日志的聚合,即集合。
第二,數(shù)據(jù)清洗
原始日志,數(shù)據(jù)很奇怪。
有些字段可能有異常值,即臟數(shù)據(jù)。為了保證下游的數(shù)據(jù)分析和統(tǒng)計能夠得到更高質(zhì)量的數(shù)據(jù),需要對這些記錄進(jìn)行過濾或者對現(xiàn)場數(shù)據(jù)進(jìn)行回填。
有些日志的字段信息可能是冗余的,下游不需要使用這些字段進(jìn)行分析。同時,為了節(jié)省存儲開銷,需要刪除這些冗余的字段信息。
部分日志的字段信息可能包含用戶敏感信息,需要進(jìn)行脫敏。如果用戶 的名字只保留姓氏,名字由*字符替換。
第三,數(shù)據(jù)存儲
清洗后的數(shù)據(jù)可以落入數(shù)據(jù)倉庫(Hive)進(jìn)行下游離線分析。如果下游的數(shù)據(jù)分析和統(tǒng)計要求實(shí)時性高,可以將日志記錄到kafka中。
第四,大數(shù)據(jù)分析和統(tǒng)計
大數(shù)據(jù)分析是數(shù)據(jù)流的下游,消耗上游的數(shù)據(jù)。其實(shí)就是從日志記錄中統(tǒng)計各種報表數(shù)據(jù)。簡單的報表統(tǒng)計可以用sql在kylin或hive中統(tǒng)計,復(fù)雜的報表需要用Spark和Storm在代碼層面進(jìn)行統(tǒng)計分析。好像有些公司會有一個職位叫BI,專門負(fù)責(zé)這方面的工作。
動詞 (verb的縮寫)數(shù)據(jù)可視化
以數(shù)據(jù)表、數(shù)據(jù)圖等直觀的形式展示上游大數(shù)據(jù)分析統(tǒng)計的數(shù)據(jù)。一般公司的一些決策都會參考這些圖表中的數(shù)據(jù)。當(dāng)然,大數(shù)據(jù)平臺(如CDH和FusionInsight)的建設(shè)和維護(hù)也可能是大數(shù)據(jù)工程師工作的一部分。
大數(shù)據(jù)分析師的工作流程簡單分為兩部分。第一部分是獲取數(shù)據(jù),第二部分是處理數(shù)據(jù)。那么如何獲取數(shù)據(jù)呢?首先要知道,獲取相關(guān)數(shù)據(jù)是數(shù)據(jù)分析的前提。每個企業(yè)都有自己的一套存儲機(jī)制。因此,一門基本的SQL語言是必要的。擁有基本的SQL基礎(chǔ),然后學(xué)習(xí)細(xì)節(jié)的語法,基本上就可以得到很多數(shù)據(jù)了。當(dāng)每個需求明確后,根據(jù)需要獲取相關(guān)數(shù)據(jù),做基礎(chǔ)數(shù)據(jù)。
獲得數(shù)據(jù)后,可以進(jìn)行數(shù)據(jù)處理。獲取數(shù)據(jù)并加工成你想要的東西是一個關(guān)鍵點(diǎn)。很多時候,有數(shù)據(jù)不是完成,而是分析的開始。大數(shù)據(jù)分析師最重要的工作就是根據(jù)需求處理數(shù)據(jù)。只有把數(shù)據(jù)和需求結(jié)合起來,才能發(fā)揮數(shù)據(jù)的價值,才能看到需求的問題和本質(zhì)。如果數(shù)據(jù)沒有處理好,如何從數(shù)據(jù)中發(fā)現(xiàn)問題?
目前,大數(shù)據(jù)分析日益成為研究行業(yè)的重要研究目標(biāo)。面對高數(shù)據(jù)量、多維度和異構(gòu)性的特點(diǎn),以及分析方法的擴(kuò)展,傳統(tǒng)的統(tǒng)計工具已經(jīng)難以應(yīng)對。所以我們需要使用專業(yè)的大數(shù)據(jù)分析工具。大數(shù)據(jù)分析工具包括Excel、SPSS、SAS等工具。Excel、SPSS、SAS對于大數(shù)據(jù)分析師來說并不陌生。然而,這三種大數(shù)據(jù)分析工具處理不同的數(shù)據(jù)分析場景??偟膩碚f,SPSS輕便易用,但功能相對較少,適合常規(guī)的基礎(chǔ)統(tǒng)計分析。SPSS和SAS作為商業(yè)統(tǒng)計軟件,提供了研究中常用的經(jīng)典統(tǒng)計分析和處理。由于SAS功能豐富強(qiáng)大,支持編程擴(kuò)展分析能力,適用于復(fù)雜且要求苛刻的統(tǒng)計分析。摘自: