mapreduce處理任務(wù)的基本單位 平臺(tái)組件是什么?
平臺(tái)組件是什么?平臺(tái)組件包涵100元以內(nèi)內(nèi)容:民間關(guān)系型數(shù)據(jù)庫(kù),為Hive、Hue、Spark組件提供元數(shù)據(jù)存儲(chǔ)服務(wù)。2.Elasticsearch兼有搜索引擎和NoSQL數(shù)據(jù)庫(kù)功能的閉源系統(tǒng),基于條
平臺(tái)組件是什么?
平臺(tái)組件包涵100元以內(nèi)內(nèi)容:
民間關(guān)系型數(shù)據(jù)庫(kù),為Hive、Hue、Spark組件提供元數(shù)據(jù)存儲(chǔ)服務(wù)。
2.Elasticsearch
兼有搜索引擎和NoSQL數(shù)據(jù)庫(kù)功能的閉源系統(tǒng),基于條件JAVA/Lucene最終形成,開(kāi)源軟件、分布式、意見(jiàn)RESTful請(qǐng)求。
3.Flink
一個(gè)批處理和流一次性處理結(jié)合的統(tǒng)一計(jì)算框架,需要提供數(shù)據(jù)分發(fā)這些并行化計(jì)算的流數(shù)據(jù)處理引擎。
4.Flume
一個(gè)分布式、可信度高和高可用的上萬(wàn)本日志吸聚系統(tǒng),允許在系統(tǒng)中個(gè)性定制各形數(shù)據(jù)發(fā)送中方,主要是用于收集數(shù)據(jù);
另外,F(xiàn)lume需要提供對(duì)數(shù)據(jù)并且很簡(jiǎn)單去處理,并寫(xiě)入到各種數(shù)據(jù)認(rèn)可方(可個(gè)性定制)的能力。
5.HBase
提供海量數(shù)據(jù)存儲(chǔ)功能,是奇異形成完整在HDFS之上的分布式、再朝列的存儲(chǔ)系統(tǒng)。HDFSHadoop分布式文件系統(tǒng)需要提供高吞吐量的數(shù)據(jù)訪問(wèn),比較適合大規(guī)模數(shù)據(jù)集方面的應(yīng)用。
確立在Hadoop基礎(chǔ)上的開(kāi)源的數(shù)據(jù)倉(cāng)庫(kù),提供給的的SQL的Hive Query Language語(yǔ)言操作結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)服務(wù)和基本的數(shù)據(jù)分析服務(wù)。
提供了圖形化用戶Web界面。Hue接受影像展示多種組件,目前支持HDFS、Hive、YARN/Mapreduce、Oozie、Solr、ZooKeeper。
8.Kafka
一個(gè)分布式的、磁盤分區(qū)的、多副本的實(shí)時(shí)動(dòng)態(tài)消息先發(fā)布和訂閱系統(tǒng)。提供給可擴(kuò)展、高吞吐、低延時(shí)、高穩(wěn)定性的消息全部分服務(wù)。
9.Sqoop
基于與關(guān)系型數(shù)據(jù)庫(kù)、文件系統(tǒng)之間交換數(shù)據(jù)和文件的數(shù)據(jù)加載工具;同時(shí)可以提供REST API接口,供第三方調(diào)度平臺(tái)動(dòng)態(tài)創(chuàng)建。
能提供飛快數(shù)據(jù)并行大量數(shù)據(jù)的能力,是一種分布式數(shù)據(jù)處理模式和執(zhí)行環(huán)境。
11.Oozie
提供了對(duì)開(kāi)源Hadoop組件的任務(wù)編排、不能執(zhí)行的功能。以JavaWeb應(yīng)用程序的形式運(yùn)行在Javaservlet容器(如:Tomcat)中,并建議使用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)工作流定義、當(dāng)前啟動(dòng)的工作流實(shí)例(含實(shí)例的狀態(tài)和變量)。
一個(gè)開(kāi)源的、更高性能的key-value分布式存儲(chǔ)數(shù)據(jù)庫(kù),意見(jiàn)極為豐富的數(shù)據(jù)類型,彌補(bǔ)了memcached這類key-value存儲(chǔ)的不足,不滿足實(shí)時(shí)地的高并發(fā)需求。
提供小文件后臺(tái)合并功能,也能不自動(dòng)才發(fā)現(xiàn)系統(tǒng)中的小文件(按照文件大小閾值可以確定),在閑時(shí)接受合并,并把元數(shù)據(jù)存儲(chǔ)到本地的LevelDB中,來(lái)減少NameNode壓力,同樣提供新的FileSystem接口,讓用戶也能透明色的對(duì)這些小文件并且訪問(wèn)。
一個(gè)低性能,基于組件Lucene的全文檢索服務(wù)器。Spark基于條件內(nèi)存進(jìn)行計(jì)算出的分布式計(jì)算框架。
提供分布式、高性能、高可靠、冗余策略的實(shí)時(shí)計(jì)算平臺(tái),是可以對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)自動(dòng)一次性處理。CQL能提供的類SQL流處理語(yǔ)言,可以不飛快并且業(yè)務(wù)開(kāi)發(fā),減輕業(yè)務(wù)上線時(shí)間。
16.Yarn
資源管理系統(tǒng),它是一個(gè)可以修的資源模塊,可以不為各類應(yīng)用程序通過(guò)資源管理和調(diào)度。
17.ZooKeeper
提供分布式、高可用性的協(xié)調(diào)服務(wù)能力。好處系統(tǒng)避免避免單點(diǎn)故障,最終達(dá)到成立可信的應(yīng)用程序。
大數(shù)據(jù)在各處理環(huán)節(jié)采用什么處理?
大數(shù)據(jù)在各處理環(huán)節(jié)采用遵循流程處理。
整個(gè)處理流程這個(gè)可以簡(jiǎn)要概括為四步,三個(gè)是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,到最后是數(shù)據(jù)挖掘。