python基礎(chǔ)教程書籍 想自學(xué)大數(shù)據(jù),不知道從哪里學(xué)起,有什么書籍和學(xué)習(xí)路線推薦么?
想自學(xué)大數(shù)據(jù),不知道從哪里學(xué)起,有什么書籍和學(xué)習(xí)路線推薦么?謝謝!筆者剛剛簽了一份大數(shù)據(jù)挖掘工程師的合同,到了研究生階段才轉(zhuǎn)向大數(shù)據(jù)方向。目前大數(shù)據(jù)火爆,很多學(xué)生都想上交,但自學(xué)的學(xué)習(xí)路線因人而異。以
想自學(xué)大數(shù)據(jù),不知道從哪里學(xué)起,有什么書籍和學(xué)習(xí)路線推薦么?
謝謝!筆者剛剛簽了一份大數(shù)據(jù)挖掘工程師的合同,到了研究生階段才轉(zhuǎn)向大數(shù)據(jù)方向。目前大數(shù)據(jù)火爆,很多學(xué)生都想上交,但自學(xué)的學(xué)習(xí)路線因人而異。
以我自己為例,作者出生于Python數(shù)據(jù)分析領(lǐng)域,具有通用編程能力。因此,在此基礎(chǔ)上,他首先學(xué)習(xí)了Linux的基本操作命令,安裝了Ubuntu的雙系統(tǒng),并進(jìn)一步安裝了Hadoop和spark組件。在此基礎(chǔ)上,他利用pypark操作spark大數(shù)據(jù)框架進(jìn)行學(xué)習(xí)。您可以推薦以下書籍:
pypark實(shí)用指南
,由淺入深,非常好用。
想做數(shù)據(jù)分析是學(xué)python還是學(xué)大數(shù)據(jù)?
大數(shù)據(jù)結(jié)構(gòu)中的很多組件都是用Java語(yǔ)言編寫的,還有一些是用Scala編寫的,比如Hadoop中的HDFS、MapReduce、yarn、ZK、HBase、hive、spark等。這些東西更傾向于數(shù)據(jù)工程、數(shù)據(jù)處理和計(jì)算。Python語(yǔ)言,包括pandas、numpy、SciPy等數(shù)據(jù)分析擴(kuò)展包,通過(guò)學(xué)習(xí)使用這些包,可以充分掌握數(shù)據(jù)分析的能力。因此,要學(xué)習(xí)數(shù)據(jù)分析,建議學(xué)習(xí)Python而不是大數(shù)據(jù)。
用Python進(jìn)行數(shù)據(jù)分析,不懂Python,求合適的Python書籍或資料推薦?
Python有很多學(xué)習(xí)資料,你可以在網(wǎng)上查看一些學(xué)習(xí)資料,也可以在不同的視頻網(wǎng)站上關(guān)注學(xué)習(xí)視頻。在這里,我們推薦B站或網(wǎng)易云教室。上面有很多關(guān)于Python的學(xué)習(xí)視頻。當(dāng)然,在頭版有很多關(guān)于Python的學(xué)習(xí)資料。建議先學(xué)習(xí)基礎(chǔ)知識(shí),關(guān)于數(shù)據(jù)分析我們需要學(xué)習(xí)pandas和numpy等第三方科學(xué)計(jì)算庫(kù),在數(shù)據(jù)分析中使用以上兩個(gè)庫(kù)可以大大降低數(shù)據(jù)分析的成本,當(dāng)然標(biāo)題或B站也有很多關(guān)于這方面的知識(shí)我建議你學(xué)python,但說(shuō)實(shí)話,大數(shù)據(jù)真的很難學(xué),我現(xiàn)在也在學(xué),想起來(lái)有點(diǎn)扯淡,公司里沒人懂這個(gè),沒人教我,讓我這樣做是為了公司未來(lái)的發(fā)展,我需要制定一套流程。我所做的是在卡格爾上的比賽,有10萬(wàn)套訓(xùn)練和20萬(wàn)次測(cè)試。如果做大數(shù)據(jù),就要了解卡格的競(jìng)爭(zhēng)平臺(tái)。如果你在競(jìng)爭(zhēng)中取得好成績(jī),肯定會(huì)給你找工作帶來(lái)很多好處。畢竟,都是大牛,要取得好成績(jī)很難,并不總是那么容易。大數(shù)據(jù)實(shí)際上是數(shù)據(jù)分析和數(shù)據(jù)挖掘,所以對(duì)統(tǒng)計(jì)學(xué)和概率論的要求很高。我向您推薦幾本書,python數(shù)據(jù)分析和挖掘,python數(shù)據(jù)分析,以及機(jī)器學(xué)習(xí)實(shí)踐。加油。