安裝spark必須安裝hadoop嗎 spark軟件是哪家公司的？

2023-06-28

4925

spark軟件是哪家公司的？是UC BerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架，Spark，具備Hadoop MapRed

spark軟件是哪家公司的？

是UC BerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架，Spark，具備Hadoop MapReduce所具高的優(yōu)點；但不只是MapReduce的是——Job中間輸出結(jié)果可以保存到在內(nèi)存中，進而繼續(xù)不需要讀寫HDFS，而Spark能更合適地范圍問題于數(shù)據(jù)挖掘與機器學(xué)習(xí)等要迭代的MapReduce的算法。

400G數(shù)據(jù)需要分配多少spark內(nèi)存？

1、怎么分配哪些資源？

executor、coreperexecutor、memoryperexecutor、drivermemory2、在哪里怎么分配這些資源？

在我們在生產(chǎn)環(huán)境中，并提交spark作業(yè)時，用的spark-receiveshell腳本，里面調(diào)整隨機的參數(shù)/usr/sources/spark/bin/spark-submit--class--num-executors3配置executor的數(shù)量--executor-memory100m配置每個executor的內(nèi)存大小--executor-cores3配置每個executor的cpucore數(shù)量--driver-memory100m配置driver的內(nèi)存（影響大不大）/usr/policies/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar3、適當(dāng)調(diào)節(jié)到多大，可以算的最呢？

第一種，SparkStandalone，公司集群上，堆建了一套Spark集群，你心里應(yīng)該要知道每臺機器還都能夠給你使用的，也差不多有多少內(nèi)存，多少cpucore；那就，設(shè)置的時候，就依據(jù)這個求實際的情況，去功能調(diào)節(jié)每個spark作業(yè)的資源分配。比如你的每臺機器都能夠給你使用4G內(nèi)存，2個cpucore；20臺機器；executor，20；來算每個executor：4G內(nèi)存，2個cpucore。第二種，Yarn。資源隊列。資源調(diào)度。應(yīng)該要去打開系統(tǒng)，你的spark作業(yè)，要重新提交到的資源隊列，hadoopsparkstorm每一個隊列都有各自的資源（cpumem）大概有多少資源？500G內(nèi)存，100個cpucore；executor，50；平均每個executor:10G內(nèi)存，2個cpucore。Spark-submit的時候怎摸指定你資源隊列？--confspark.yarn.queuedefault設(shè)置隊列名稱:spark.yarn.queuedefault一個原則，你能建議使用的資源有多大，就不要去調(diào)節(jié)平衡到大的的大?。╡xecutor的數(shù)量，七八個到上百個不等；executor內(nèi)存；executorcpucore）

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

spark軟件是哪家公司的？

400G數(shù)據(jù)需要分配多少spark內(nèi)存？

相關(guān)推薦

spark軟件是哪家公司的？