hadoop怎么打開文件 hadoop的發(fā)展及原理?
hadoop的發(fā)展及原理?Hadoop的發(fā)展歷史2004年—曾經(jīng)在的版本(現(xiàn)在稱作HDFS和MapReduce)由DougCutting和Mike Cafarella開始率先實施。2005年12月—N
hadoop的發(fā)展及原理?
Hadoop的發(fā)展歷史
2004年—曾經(jīng)在的版本(現(xiàn)在稱作HDFS和MapReduce)由DougCutting和Mike Cafarella開始率先實施。
2005年12月—Nutch移植到到新的框架,Hadoop在20個節(jié)點上穩(wěn)定運行。
2006年1月—Doug Cutting參加雅虎。
2006年2月—Apache Hadoop項目開始正常啟動以意見MapReduce和HDFS的獨立發(fā)展。
2006年2月—雅虎的網(wǎng)格計算團隊按結(jié)構(gòu)Hadoop。
2006年4月—標準排序(10GB每個節(jié)點)在188個節(jié)點上運行程序47.9個小時。
…………
Hadoop的工作原理是:
Hadoop由許多元素構(gòu)成。其最底部是Hadoop Distributed File System(HDFS),它存儲文件Hadoop集群中所有存儲節(jié)點上的文件。HDFS(對此本文)的上一層是MapReduce引擎,該引擎由JobTrackers和TaskTrackers排成?!?/p>
hadoop常用版本?
Hadoop各高端點版本的介紹
ApacheHadoop2.0版本,有200以內(nèi)模塊:Hadoop通用模塊,意見其他Hadoop模塊的通用工具集Hadoop分布式文件系統(tǒng)(HDFS),意見對應用數(shù)據(jù)高吞吐量ftp連接的分布式文件系統(tǒng)HadoopYARN,主要用于作業(yè)調(diào)度和集群資源管理的框架HadoopMapReduce,設計和實現(xiàn)YARN的大數(shù)據(jù)并行處理系統(tǒng)。Hadoop目前除了社區(qū)版,也有各大廠商的發(fā)行版本。
Cloudera:最成型的發(fā)行版本,具備至少的部署案例能提供強大的部署、管理和監(jiān)控工具。開發(fā)并杰出貢獻了可動態(tài)實時如何處理大數(shù)據(jù)的Impala項目。
Hortonworks:100%開源的ApacheHadoop僅有提供給商。Hortonworks是第一家建議使用了ApacheHCatalog的元數(shù)據(jù)服務特性的需要提供商。但,他們的Stinger如此大地優(yōu)化系統(tǒng)了Hive項目。Hortonworks為人們提供了一個非常好的、易于使用的沙盒。Hortonworks開發(fā)完畢了很多可以提高特性并并提交至核心主干,這也讓ApacheHadoop能夠在包括WindowsServers和WindowsAzure在內(nèi)的Microsoft Windows平臺上本地運行。
MapR:與競爭者比起,它使用了一些相同的概念,特別是就是為了資源更好的性能和