hdfs文件寫(xiě)入的詳細(xì)流程 spark是哪個(gè)公司生產(chǎn)的?
spark是哪個(gè)公司生產(chǎn)的?ApacheSpark是專(zhuān)為如此大規(guī)模數(shù)據(jù)處理而怎么設(shè)計(jì)的迅速不分地區(qū)的計(jì)算引擎。Spark是UC BerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開(kāi)源的
spark是哪個(gè)公司生產(chǎn)的?
ApacheSpark是專(zhuān)為如此大規(guī)模數(shù)據(jù)處理而怎么設(shè)計(jì)的迅速不分地區(qū)的計(jì)算引擎。Spark是UC BerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開(kāi)源的類(lèi)Hadoop MapReduce的通用分頭并進(jìn)框架,Spark,占據(jù)Hadoop MapReduce所更具的優(yōu)點(diǎn);但類(lèi)似于MapReduce的是——Job中間輸出結(jié)果可以不存放在內(nèi)存中,最大限度地繼續(xù)要讀寫(xiě)HDFS,而Spark能更合適地可以參照于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等不需要迭代的MapReduce的算法。
Apache Mahout如何使用?
Mahout直接安裝詳細(xì)點(diǎn)全過(guò)程1、jdk完全安裝22、SSH無(wú)密碼驗(yàn)證電腦配置23、Hadoop電腦配置34、Hadop在用65、Maven安裝76、安裝lucene77、hadoop集群來(lái)想執(zhí)行聚類(lèi)算法88、其他8――――――――――――――――――――1、jdk按裝1.1、到官網(wǎng)下載相關(guān)的JDK下載地址:
、然后打開(kāi)“終端”鍵入:sh
1.3、設(shè)置中JAVA_HOME環(huán)境系統(tǒng)變量輸入:vi/etc/environment在文件中再添加:exportJAVA_HOME/root/jdk1.6.0_24exportJRE_Home/root/jdk1.6.0_24/jreexportCLASSPATH$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib同樣,直接修改第二個(gè)文件。輸入:vi/etc/profile在umask022之前添加200以?xún)?nèi)語(yǔ)句:exportJAVA_HOME/root/jdk1.6.0_24exportJRE_Home/root/jdk1.6.0_24/jreexportCLASSPATH$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libexportPATH$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin1.4、自動(dòng)注銷(xiāo)用戶(hù),檢測(cè)JDK版本。鍵入:java-version2、集群環(huán)境能介紹集群中有三個(gè)節(jié)點(diǎn):1個(gè)namenode,2個(gè)datanode,節(jié)點(diǎn)之間局域網(wǎng)連接到,可以不相互ping服務(wù)器通。節(jié)點(diǎn)IP 地址分布特點(diǎn)萬(wàn)分感謝:Namenode:::三臺(tái)節(jié)點(diǎn)上均是CentOS系統(tǒng),Hadoop在/root/hadoop/目錄下。在/etc/hosts上先添加主機(jī)名和相對(duì)應(yīng)的IP地址:192.168.1.10master192.168.1.20slave1192.168.1.21slave23、SSH無(wú)密碼驗(yàn)證配置好不好2.1Hadoop是需要建議使用SSH協(xié)議,namenode將在用SSH協(xié)議起動(dòng)namenode和datanode進(jìn)程,偽分布式模式數(shù)據(jù)節(jié)點(diǎn)和名稱(chēng)節(jié)點(diǎn)均是本身,可以配置SSHlocalhost無(wú)密碼修改密保。用root用戶(hù)登錄,自己在家目錄下負(fù)責(zé)執(zhí)行不勝感激命令:ssh-keygen-trsa[~]#ssh-keygen-trsaGeneratingwelfare/privatersakeypair.Enter
fileoutsidewhichneedsavethe key(_rsa):
按回車(chē)設(shè)置為路徑Createddirectory.創(chuàng)建戰(zhàn)隊(duì)
目錄Enterpassphrase(emptyafternopassphrase):Entersamepassphraseagain:Youridentificationhas beensavedin_
welfarekeyhas beensavedof_
keyfingerprintis:c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38以上命令將在
目錄下生成id_rsa私鑰和id_
公鑰。進(jìn)入
目錄在namenode節(jié)點(diǎn)下做不勝感激配置:[.ssh]#catid_
authorized_keys[.ssh]#scpauthorized_keys[
.ssh]#scpauthorized_keys
配置完畢后,可按照ssh本機(jī)IP測(cè)試如何確定需要密碼登錄。2.2和namenode無(wú)密碼登錄所有Datanode原理一般,把Datanode的公鑰不能復(fù)制到Namenode的.ssh
目錄下。[.ssh]#scpauthorized_keys1192.168.1.10:/root[root@]#scpauthorized_keys2192.168.1.10:/root
將剛傳回來(lái)的authorized_keys1、2加入到到authorized_keys[root@]#catauthorized_keys1authorized_keys[root@]#catauthorized_keys2authorized_keys那樣也能在Datanode上直接關(guān)閉和起動(dòng)Hadoop服務(wù)。4、Hadoop配置直接下載hadoop-0.20.2.tar.gz
,進(jìn)行壓縮包。tarzxvfhadoop-0.20.2.tar.gz
修改/etc/profile,一并加入追加:#sethadooppathexportHADOOP_HOME/root/hadoopexportPATH$HADOOP_HOME/bin:$PATH4.1、進(jìn)入到hadoop/conf,配置Hadoop配置文件4.1.1配置
文件添加#setjavaenvironmentexportJAVA_HOME/root/jdk1.6.0_24編輯后保存再次。4.1.2配置core-site.xml#vicore-site.xml4.1.3配置hdfs-site.xml#vihdfs-site.xml4.1.4配置mapred-site.xml#vimapred-site.xml4.1.5配置masters#vimasters192.168.1.104.1.6配置slaves#vislaves192.168.1.20192.168.1.214.2、Hadoop啟動(dòng)后4.2.1進(jìn)入到/root/hadoop/bin目錄下,磁盤(pán)格式化namenode#./hadoopnamenodeCformat4.2.2啟動(dòng)時(shí)hadoop所有進(jìn)程在/root/hadoop/bin目錄下,先執(zhí)行
命令啟動(dòng)后能完成后,后用jps命令一欄hadoop進(jìn)程有無(wú)啟動(dòng)時(shí)幾乎。正常情況下應(yīng)該是有萬(wàn)分感謝進(jìn)程:10910NameNode11431Jps11176SecondaryNameNode11053DataNode11254JobTracker11378TaskTracker我在搭建中過(guò)程中,在此環(huán)節(jié)出現(xiàn)的問(wèn)題最多,每天都出現(xiàn)正常啟動(dòng)進(jìn)程不求下載的情況,要不是datanode無(wú)常了啟動(dòng)時(shí),那是namenode或是TaskTracker啟動(dòng)十分。能解決的萬(wàn)分感謝:1)在Linux下自動(dòng)關(guān)閉防火墻:在用serviceiptablesstop命令;2)再一次對(duì)namenode通過(guò)格式化:在/root/hadoop/bin目錄下先執(zhí)行hadoopnamenode-format命令3)對(duì)服務(wù)器參與重啟4)欄里點(diǎn)datanode又或者是namenode填寫(xiě)的日志文件,日志文件保存在/root/hadoop/logs目錄下。5)又一次在/bin目錄下用
新的命令啟動(dòng)后所有進(jìn)程,實(shí)際以上的幾個(gè)方法估計(jì)能幫忙解決進(jìn)程啟動(dòng)不幾乎的問(wèn)題了。4.2.3查找集群狀態(tài)在bin目錄下先執(zhí)行:hadoopdfsadmin-report#hadoopdfsadminCreport4.3在WEB頁(yè)面下打開(kāi)系統(tǒng)Hadoop工作情況先打開(kāi)IE瀏覽器然后輸入防御部署Hadoop服務(wù)器的IP::50070:50030。5、Hadop使用一個(gè)測(cè)試?yán)觲ordcount:計(jì)算出鍵入文本中詞語(yǔ)數(shù)量的程序。WordCount在Hadoop主目錄下的java程序包hadoop-0.20.2-examples.jar
中,負(fù)責(zé)執(zhí)行步驟如下:在/root/hadoop/bin/目錄下接受追加你的操作:./hadoopfs-mkdirinput(新建目錄名稱(chēng),可輸入命名)mkdir/root/a/vi/root/a/a.txt
寫(xiě)入到hello worldhello!#hadoopfs-copyFromLocal/root/a/outputs在/root/hadoop/bin下先執(zhí)行:#./hadoopjarhadoop-0.20.2-examples.jar
wordcountinputinput(提交作業(yè),此處需注意一點(diǎn)input與output是一組任務(wù),下回再不能執(zhí)行wordcount程序,還得新建項(xiàng)目錄intput1與output1不能跟input與output重名)6、Maven完全安裝6.1下載Maven解壓tarvxzfapache-maven-3.0.2-bin.tar.gzmv
apache-maven-3.0.2/root/maven6.2vi~
去添加萬(wàn)分感謝兩行exportM3_HOME/root/mavenexportPATH${M3_HOME}/bin:${PATH}6.3先logout,之后再signin查看maven版本,看是否安裝好順利mvn-version7、安裝mahout安裝方法見(jiàn):
、hadoop集群來(lái)執(zhí)行聚類(lèi)算法8.1數(shù)據(jù)準(zhǔn)備cd/root/
./hadoopfs-mkdirtestdata./hadoopfs-throwingsynthetic_
testdata./hadoopfs-lsrtestdatabin/hadoopjar/root/mahout/mahout-examples-0.4-job.jar
查找?guī)鸵幌旅Y(jié)果吧bin/mahoutvectordump--seqFile/user/root/output/data/no.-r-00000這個(gè)真接把結(jié)果顯示在控制臺(tái)上。9、hadoop集群來(lái)想執(zhí)行推薦算法分布式bin/hadoopjar/root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar
-Dmapred.output.diroutput2偽分布式bin/hadoopjar/root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar
--recommenderClassName
-Dmapred.output.diroutput_w10wan10、其他趕回安全模式:hadoopdfsadmin-safemodeleave