hadoop有哪三種安裝模式偽分布式的spark/mapreduce是只供用來學(xué)習(xí)的嗎？

2021-03-15

2651

偽分布式的spark/mapreduce是只供用來學(xué)習(xí)的嗎？首先，MapReduce出現(xiàn)得更早。介紹了分布式大數(shù)據(jù)處理的基本思想?，F(xiàn)在我在學(xué)習(xí)火花。Matei zaharia的畢業(yè)論文，即spark的

偽分布式的spark/mapreduce是只供用來學(xué)習(xí)的嗎？

首先，MapReduce出現(xiàn)得更早。介紹了分布式大數(shù)據(jù)處理的基本思想。現(xiàn)在我在學(xué)習(xí)火花。Matei zaharia的畢業(yè)論文，即spark的介紹論文，已在CSDN上翻譯成中文。

建議先學(xué)習(xí)MapReduce，主要是了解任務(wù)是如何執(zhí)行的。都在網(wǎng)上。然后，spark學(xué)習(xí)應(yīng)該關(guān)注于理解spark-to-SQL語句的執(zhí)行機制。

不同的分布式框架有各自的優(yōu)勢和不同的業(yè)務(wù)場景。MapReduce可以更好地處理大量ETL服務(wù)，而spark則相對更側(cè)重于機器學(xué)習(xí)。對于企業(yè)來說，如果這些業(yè)務(wù)能夠在同一個集群上運行，就可以有效地降低成本。為了讓不同的框架同時在同一個集群中運行，最重要的問題是如何分配資源。當(dāng)沒有紗線時，一個相對簡單的方法是假設(shè)集群中有100臺機器。我們將50臺機器分配給spark，將其他50臺機器分配給MapReduce。這似乎沒什么問題。不過，如果我們每天只運行一個小時的MapReduce，其余大部分時間都在運行spark，那么一天就有23個小時，50臺機器處于空閑狀態(tài)，而spark的機器很可能有大量作業(yè)在隊列中。這顯然不是一種非常有效的使用集群的方法。

MapReduce和Spark主要解決哪些方面的問題？

：MapReduce采用了“分而治之”的思想。簡而言之，MapReduce就是“任務(wù)分解和結(jié)果匯總”。

Spark是在MapReduce的基礎(chǔ)上開發(fā)的。它具有hadoopmapreduce的優(yōu)點。Spark是MapReduce的替代品，與HDFS和hive兼容。它可以集成到Hadoop生態(tài)系統(tǒng)中，以彌補MapReduce的不足。

加米谷大數(shù)據(jù)開發(fā)培訓(xùn)，6月零基礎(chǔ)課預(yù)測，提前預(yù)測驚喜

！ https://www.toutiao.com/i6692992593413800456/

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

偽分布式的spark/mapreduce是只供用來學(xué)習(xí)的嗎？

MapReduce和Spark主要解決哪些方面的問題？

相關(guān)推薦