sparkmap和reduce MapReduce和Spark的區(qū)別是什么?
MapReduce和Spark的區(qū)別是什么?MapReduce是Hadoop的分布式計算編程框架其核心功能是將用戶編寫的邏輯代碼和自己的組件集成到一個程序中,在Hadoop集群上并發(fā)運行。核心組件是m
MapReduce和Spark的區(qū)別是什么?
MapReduce是Hadoop的分布式計算編程框架
其核心功能是將用戶編寫的邏輯代碼和自己的組件集成到一個程序中,在Hadoop集群上并發(fā)運行。核心組件是mrappmaster maptask Reducetask
spark是MapReduce的替代品,兼容HDFS和hive,可以集成到Hadoop生態(tài)系統(tǒng)中
它們之間的區(qū)別
1。Spark比MapReduce快
基于內(nèi)存的計算比MapReduce快100多倍
基于硬盤的計算比MapReduce快10多倍
2。Spark支持流媒體和離線計算
MapReduce只支持離線計算
3。MapReduce沒有資源調(diào)度系統(tǒng),它必須在諸如yarn之類的資源系統(tǒng)上運行
spark本身集成了資源調(diào)度,并且可以在獨立模式下在自己的主進(jìn)程和工作進(jìn)程上運行,或者在yarn上運行
空間有限,所以讓我們首先在這里介紹它。歡迎留言
不允許通過reduce output將數(shù)據(jù)輸出到多個目錄。您可以將reduce的輸出設(shè)置為no output。您可以在reducer類的configure()方法中創(chuàng)建一個將數(shù)據(jù)輸出到HDFS的流,然后在reduce()方法中將數(shù)據(jù)輸出到HDFS流,最后在close()方法中關(guān)閉輸出流