hadoop怎么打開文件 hadoop的發(fā)展及原理?
hadoop的發(fā)展及原理?Hadoop的發(fā)展歷史2004年—曾經(jīng)在的版本(現(xiàn)在稱作HDFS和MapReduce)由DougCutting和Mike Cafarella開始率先實(shí)施。2005年12月—N
hadoop的發(fā)展及原理?
Hadoop的發(fā)展歷史
2004年—曾經(jīng)在的版本(現(xiàn)在稱作HDFS和MapReduce)由DougCutting和Mike Cafarella開始率先實(shí)施。
2005年12月—Nutch移植到到新的框架,Hadoop在20個(gè)節(jié)點(diǎn)上穩(wěn)定運(yùn)行。
2006年1月—Doug Cutting參加雅虎。
2006年2月—Apache Hadoop項(xiàng)目開始正常啟動(dòng)以意見MapReduce和HDFS的獨(dú)立發(fā)展。
2006年2月—雅虎的網(wǎng)格計(jì)算團(tuán)隊(duì)按結(jié)構(gòu)Hadoop。
2006年4月—標(biāo)準(zhǔn)排序(10GB每個(gè)節(jié)點(diǎn))在188個(gè)節(jié)點(diǎn)上運(yùn)行程序47.9個(gè)小時(shí)。
…………
Hadoop的工作原理是:
Hadoop由許多元素構(gòu)成。其最底部是Hadoop Distributed File System(HDFS),它存儲(chǔ)文件Hadoop集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS(對(duì)此本文)的上一層是MapReduce引擎,該引擎由JobTrackers和TaskTrackers排成。………
hadoop常用版本?
Hadoop各高端點(diǎn)版本的介紹
ApacheHadoop2.0版本,有200以內(nèi)模塊:Hadoop通用模塊,意見其他Hadoop模塊的通用工具集Hadoop分布式文件系統(tǒng)(HDFS),意見對(duì)應(yīng)用數(shù)據(jù)高吞吐量ftp連接的分布式文件系統(tǒng)HadoopYARN,主要用于作業(yè)調(diào)度和集群資源管理的框架HadoopMapReduce,設(shè)計(jì)和實(shí)現(xiàn)YARN的大數(shù)據(jù)并行處理系統(tǒng)。Hadoop目前除了社區(qū)版,也有各大廠商的發(fā)行版本。
Cloudera:最成型的發(fā)行版本,具備至少的部署案例能提供強(qiáng)大的部署、管理和監(jiān)控工具。開發(fā)并杰出貢獻(xiàn)了可動(dòng)態(tài)實(shí)時(shí)如何處理大數(shù)據(jù)的Impala項(xiàng)目。
Hortonworks:100%開源的ApacheHadoop僅有提供給商。Hortonworks是第一家建議使用了ApacheHCatalog的元數(shù)據(jù)服務(wù)特性的需要提供商。但,他們的Stinger如此大地優(yōu)化系統(tǒng)了Hive項(xiàng)目。Hortonworks為人們提供了一個(gè)非常好的、易于使用的沙盒。Hortonworks開發(fā)完畢了很多可以提高特性并并提交至核心主干,這也讓ApacheHadoop能夠在包括WindowsServers和WindowsAzure在內(nèi)的Microsoft Windows平臺(tái)上本地運(yùn)行。
MapR:與競爭者比起,它使用了一些相同的概念,特別是就是為了資源更好的性能和