hive適合存儲(chǔ)什么文件 Hadoop生態(tài)系統(tǒng)及各模塊的功能?
Hadoop生態(tài)系統(tǒng)及各模塊的功能?1.HDFS(Hadoop分布式文件系統(tǒng))HDFS是一個(gè)在Hadoop生態(tài)中提供分布式存儲(chǔ)支持的系統(tǒng),很多上層計(jì)算框架(Hbase,Spark等。)依靠HDFS存儲(chǔ)
Hadoop生態(tài)系統(tǒng)及各模塊的功能?
1.HDFS(Hadoop分布式文件系統(tǒng))
HDFS是一個(gè)在Hadoop生態(tài)中提供分布式存儲(chǔ)支持的系統(tǒng),很多上層計(jì)算框架(Hbase,Spark等。)依靠HDFS存儲(chǔ)。
(分布式計(jì)算模型)離線計(jì)算
什么是離線計(jì)算,其實(shí)就是非實(shí)時(shí)計(jì)算。
3.分布式資源管理器
紗線與紡織品。;的出現(xiàn)主要是為了解決原有Hadoop擴(kuò)展性差,不支持多種計(jì)算模式的問題。
4.存儲(chǔ)計(jì)算
Spark在內(nèi)存中提供分布式計(jì)算能力,比傳統(tǒng)的MapReduce大數(shù)據(jù)分析更高效、更快速。
5.分布式列存儲(chǔ)數(shù)據(jù)庫
Hbase繼承了列存儲(chǔ)的特點(diǎn),非常適合數(shù)據(jù)的隨機(jī)讀寫。其次,Hbase建立在HDFS之上,它內(nèi)部管理的所有文件都存儲(chǔ)在HDFS。這使得它具有高度的容錯(cuò)性和可擴(kuò)展性,并支持Hadoop mapreduce編程模型。
6.數(shù)據(jù)倉庫
7.Oozie(工作流調(diào)度程序)
Oozie是一個(gè)基于工作流引擎的調(diào)度器,它實(shí)際上是一個(gè)運(yùn)行在Java Servlet容器(如Tomcat)中的JavaWeb應(yīng)用程序,在其上可以運(yùn)行諸如Hadoop 地圖縮小和豬。
8.Sqoop和Pig
9.Flume(日志收集工具)
Flume將數(shù)據(jù)從產(chǎn)生、傳輸、處理到最終寫入目標(biāo)路徑的過程抽象成數(shù)據(jù)流。在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方,從而支持不同協(xié)議的數(shù)據(jù)采集。
10.Kafka(分布式消息隊(duì)列)
Kafka是Apach
hive分區(qū)表的特點(diǎn)?
配置單元功能:
延遲高,適合高通量、批量、海量數(shù)據(jù)處理。
2,語法類似SQL,學(xué)習(xí)成本低,避免了復(fù)雜的MapReduce,縮短了開發(fā)周期。
支持自由擴(kuò)展集群規(guī)模,一般不需要重啟服務(wù)。
支持用戶自定義函數(shù),用戶可以根據(jù)自己的需求定義函數(shù)。
5、容錯(cuò)性好,在節(jié)點(diǎn)出現(xiàn)問題時(shí),SQL仍能成功執(zhí)行。