Hadoop的三大組件分別是:分布式存儲(chǔ)系統(tǒng) HDFS,提供了高可靠性、高擴(kuò)展性和高吞吐率的數(shù)據(jù)存儲(chǔ)服務(wù);分布式計(jì)算框架 MapReduce,具有易于編程、高容錯(cuò)性和高擴(kuò)展性等優(yōu)點(diǎn);分布式資源管理框架 YARN,負(fù)責(zé)集群資源的管理和調(diào)度。
hadoop三大組件
1、分布式存儲(chǔ)系統(tǒng) HDFS(Hadoop Distributed File System)。
提供了高可靠性、高擴(kuò)展性和高吞吐率的數(shù)據(jù)存儲(chǔ)服務(wù)。
一個(gè)高可靠、高吞吐量的分布式文件系統(tǒng),存儲(chǔ)海量數(shù)據(jù)、分布式、安全性、副本數(shù)據(jù)、數(shù)據(jù)是以block的方式進(jìn)行存儲(chǔ)的,128M。
比如:200M—128M 72M。
2、分布式計(jì)算框架 MapReduce。
具有易于編程、高容錯(cuò)性和高擴(kuò)展性等優(yōu)點(diǎn)。
一個(gè)分布式的離線并行計(jì)算框架、對(duì)海量數(shù)據(jù)的處理、分布式。
思想:分而治之、大數(shù)據(jù)集分為小的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集進(jìn)行邏輯業(yè)務(wù)處理(map),合并統(tǒng)計(jì)數(shù)據(jù)結(jié)果(reduce)。
3、分布式資源管理框架 YARN(Yet Another Resource Management)。
負(fù)責(zé)集群資源的管理和調(diào)度。
分布式資源管理框架,管理整個(gè)集群的資源(內(nèi)存、CPU核數(shù)),分配調(diào)度集群的資源。
[免責(zé)聲明]
文章標(biāo)題: hadoop三大組件
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。