spark必須基于hadoop嗎淺談Spark和Hadoop作業(yè)之間的區(qū)別？

2021-03-15

2347

淺談Spark和Hadoop作業(yè)之間的區(qū)別？我認(rèn)為你所說的Hadoop是map/reduce。主要區(qū)別如下：1。Mr-Jobs的資源控制是通過yarn實(shí)現(xiàn)的。Spark是否可以通過紗線控制資源。但是，

淺談Spark和Hadoop作業(yè)之間的區(qū)別？

我認(rèn)為你所說的Hadoop是map/reduce。主要區(qū)別如下：

1。Mr-Jobs的資源控制是通過yarn實(shí)現(xiàn)的。Spark是否可以通過紗線控制資源。但是，如果將多個(gè)組件設(shè)置在一起（例如，群集中同時(shí)存在spark計(jì)劃和HBase查詢），建議使用yarn；

2。Spark基于內(nèi)存計(jì)算。計(jì)算的中間結(jié)果存儲(chǔ)在內(nèi)存中，可以訪問行迭代計(jì)算；而Mr計(jì)算的中間結(jié)果是放到磁盤上，所以一個(gè)作業(yè)會(huì)涉及到對(duì)磁盤的重復(fù)讀寫，這也是性能不如spark的主要原因；

3。Mr的任務(wù)對(duì)應(yīng)于一個(gè)容器，每次都需要花費(fèi)大量的時(shí)間來(lái)啟動(dòng)。一些Hadoop版本（如華為oceaninsight）性能不同，Hadoop實(shí)現(xiàn)了容器預(yù)熱（重用）功能，可能消耗較少，而spark是基于線程池的，因此資源分配會(huì)更快。

在hadoop和spark之間如何取舍？

一般來(lái)說，會(huì)用到主流行業(yè)的大數(shù)據(jù)技術(shù)Hadoop和spark。學(xué)習(xí)時(shí)，兩個(gè)系統(tǒng)都會(huì)學(xué)習(xí)，先學(xué)習(xí)Hadoop，再學(xué)習(xí)spark。

Apache開源組織的分布式基礎(chǔ)設(shè)施提供了分布式文件系統(tǒng)（HDFS）、分布式計(jì)算（MapReduce）和統(tǒng)一資源管理框架（yarn）的軟件體系結(jié)構(gòu)。用戶可以在不了解分布式系統(tǒng)的基本細(xì)節(jié)的情況下開發(fā)分布式程序。

為大規(guī)模數(shù)據(jù)處理設(shè)計(jì)的快速通用計(jì)算引擎。用于構(gòu)建大型、低延遲的數(shù)據(jù)分析應(yīng)用程序。它可以用來(lái)完成各種操作，包括SQL查詢、文本處理、機(jī)器學(xué)習(xí)等。

https://www.toutiao.com/i654015696262573648397/

hadoop與spark的區(qū)別是什么？

感謝您的邀請(qǐng)

！請(qǐng)看下面的圖片：

狹義的Hadoop，也就是原始版本：只有HDFS map reduce

未來(lái)會(huì)出現(xiàn)很多存儲(chǔ)、計(jì)算和管理框架。

如果我們比較它們，我們可以比較Hadoop map reduce和spark，因?yàn)樗鼈兪怯糜诖髷?shù)據(jù)分析的計(jì)算框架。

Spark有許多線路組件，它們更強(qiáng)大、更快。

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

淺談Spark和Hadoop作業(yè)之間的區(qū)別？

在hadoop和spark之間如何取舍？

hadoop與spark的區(qū)別是什么？

相關(guān)推薦

在hadoop和spark之間如何取舍？

hadoop與spark的區(qū)別是什么？