python處理excel數(shù)據(jù) 想做數(shù)據(jù)分析是學(xué)python還是學(xué)大數(shù)據(jù)?
想做數(shù)據(jù)分析是學(xué)python還是學(xué)大數(shù)據(jù)?大數(shù)據(jù)結(jié)構(gòu)中的很多組件都是用Java語言編寫的,還有一些是用Scala編寫的,比如Hadoop中的HDFS、MapReduce、yarn、ZK、HBase、h
想做數(shù)據(jù)分析是學(xué)python還是學(xué)大數(shù)據(jù)?
大數(shù)據(jù)結(jié)構(gòu)中的很多組件都是用Java語言編寫的,還有一些是用Scala編寫的,比如Hadoop中的HDFS、MapReduce、yarn、ZK、HBase、hive、spark等。這些東西更傾向于數(shù)據(jù)工程、數(shù)據(jù)處理和計算。Python語言,包括pandas、numpy、SciPy等數(shù)據(jù)分析擴(kuò)展包,通過學(xué)習(xí)使用這些包,可以充分掌握數(shù)據(jù)分析的能力。因此,要學(xué)習(xí)數(shù)據(jù)分析,建議學(xué)習(xí)Python而不是大數(shù)據(jù)。
想自學(xué)大數(shù)據(jù),不知道從哪里學(xué)起,有什么書籍和學(xué)習(xí)路線推薦么?
謝謝!筆者剛剛簽了一份大數(shù)據(jù)挖掘工程師的合同,到了研究生階段才轉(zhuǎn)向大數(shù)據(jù)方向。目前大數(shù)據(jù)火爆,很多學(xué)生都想上交,但自學(xué)的學(xué)習(xí)路線因人而異。
以我自己為例,作者出生于Python數(shù)據(jù)分析領(lǐng)域,具有通用編程能力。因此,在此基礎(chǔ)上,他首先學(xué)習(xí)了Linux的基本操作命令,安裝了Ubuntu的雙系統(tǒng),并進(jìn)一步安裝了Hadoop和spark組件。在此基礎(chǔ)上,他利用pypark操作spark大數(shù)據(jù)框架進(jìn)行學(xué)習(xí)。您可以推薦以下書籍:
pypark實(shí)用指南
,由淺入深,非常好用。
如何學(xué)習(xí)大數(shù)據(jù)處理?
隨著當(dāng)今信息時代的飛速發(fā)展,從IT時代已經(jīng)到了DT時代。大數(shù)據(jù)起著至關(guān)重要的作用,因此越來越多的人接觸和學(xué)習(xí)大數(shù)據(jù)。他們怎樣才能學(xué)好大數(shù)據(jù)處理?具體內(nèi)容如下:!高層建筑都是由地基建成的。在學(xué)習(xí)大數(shù)據(jù)處理之前,掌握扎實(shí)的基本技能非常重要,這將決定你未來的身高。基本技能包括掌握python、Java等支持大數(shù)據(jù)的編程語言、Linux操作系統(tǒng)、常用主流數(shù)據(jù)庫,以及高等數(shù)學(xué)和英語的標(biāo)準(zhǔn)。
了解大數(shù)據(jù)處理的工作機(jī)制,Hadoop、spark、strom等主流大數(shù)據(jù)框架及相關(guān)算法軟件。
有了計劃,學(xué)習(xí)就會有明確的目標(biāo)和具體的步驟,可以增強(qiáng)工作的主動性,減少盲目性。根據(jù)自己的基礎(chǔ)和學(xué)習(xí)狀態(tài)制定一套切實(shí)可行的學(xué)習(xí)計劃,計劃必須分解到位,詳述。并按照計劃,一步一步地完成。
對于不了解、專業(yè)知識較強(qiáng)的人員,我們可以通過網(wǎng)絡(luò)檢索、訪問學(xué)術(shù)網(wǎng)站或查閱學(xué)術(shù)文獻(xiàn)等方式學(xué)習(xí)相關(guān)知識,從而快速進(jìn)入和熟悉未知領(lǐng)域,豐富我們的能力。
再好的知識儲備,沒有實(shí)際的實(shí)踐,也只是空談。所學(xué)知識在實(shí)際項(xiàng)目經(jīng)驗(yàn)中獲得相應(yīng)的經(jīng)驗(yàn)價值,知識才會真正落地,自身也會得到提高。
只有通過不斷的歸納和及時的復(fù)習(xí),所學(xué)的知識才能成為自己可以運(yùn)用的能力。對于那些不夠扎實(shí)、被遺忘的地方,我們需要在學(xué)習(xí)的過程中多思考、多總結(jié),以文件的形式記錄下來,轉(zhuǎn)化為自己的東西。