安裝spark必須安裝hadoop嗎 spark軟件是哪家公司的?
spark軟件是哪家公司的?是UC BerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架,Spark,具備Hadoop MapRed
spark軟件是哪家公司的?
是UC BerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架,Spark,具備Hadoop MapReduce所具高的優(yōu)點;但不只是MapReduce的是——Job中間輸出結(jié)果可以保存到在內(nèi)存中,進而繼續(xù)不需要讀寫HDFS,而Spark能更合適地范圍問題于數(shù)據(jù)挖掘與機器學(xué)習(xí)等要迭代的MapReduce的算法。
400G數(shù)據(jù)需要分配多少spark內(nèi)存?
1、怎么分配哪些資源?
executor、coreperexecutor、memoryperexecutor、drivermemory2、在哪里怎么分配這些資源?
在我們在生產(chǎn)環(huán)境中,并提交spark作業(yè)時,用的spark-receiveshell腳本,里面調(diào)整隨機的參數(shù)/usr/sources/spark/bin/spark-submit--class--num-executors3配置executor的數(shù)量--executor-memory100m配置每個executor的內(nèi)存大小--executor-cores3配置每個executor的cpucore數(shù)量--driver-memory100m配置driver的內(nèi)存(影響大不大)/usr/policies/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar3、適當(dāng)調(diào)節(jié)到多大,可以算的最呢?
第一種,SparkStandalone,公司集群上,堆建了一套Spark集群,你心里應(yīng)該要知道每臺機器還都能夠給你使用的,也差不多有多少內(nèi)存,多少cpucore;那就,設(shè)置的時候,就依據(jù)這個求實際的情況,去功能調(diào)節(jié)每個spark作業(yè)的資源分配。比如你的每臺機器都能夠給你使用4G內(nèi)存,2個cpucore;20臺機器;executor,20;來算每個executor:4G內(nèi)存,2個cpucore。第二種,Yarn。資源隊列。資源調(diào)度。應(yīng)該要去打開系統(tǒng),你的spark作業(yè),要重新提交到的資源隊列,hadoopsparkstorm每一個隊列都有各自的資源(cpumem)大概有多少資源?500G內(nèi)存,100個cpucore;executor,50;平均每個executor:10G內(nèi)存,2個cpucore。Spark-submit的時候怎摸指定你資源隊列?--confspark.yarn.queuedefault設(shè)置隊列名稱:spark.yarn.queuedefault一個原則,你能建議使用的資源有多大,就不要去調(diào)節(jié)平衡到大的的大?。╡xecutor的數(shù)量,七八個到上百個不等;executor內(nèi)存;executorcpucore)