首页   快速返回

hadoop1.0与2.0的区别     所属分类 hadoop
hadoop1.0

MapReduce + HDFS
MapReduce  集群资源管理 数据处理

HDFS由一个NameNode和多个DateNode组成
MapReduce由一个JobTracker和多个TaskTracker组成

MapReduce1.0计算框架主要由三部分组成:编程模型、数据处理引擎和运行时环境。

编程模型是将问题抽象成Map和Reduce两个阶段
Map阶段将输入的数据解析成key/value,迭代调用map()函数处理后,再以key/value的形式输出到本地目录,
Reduce阶段将key相同的value进行规约处理,并将最终结果写到HDFS上

数据处理引擎由MapTask和ReduceTask组成,分别负责Map阶段逻辑和Reduce阶段的逻辑处理

运行时环境由一个JobTracker和若干个TaskTracker组成
JobTracker负责资源管理和所有作业的控制
TaskTracker接收JobTracker的命令并执行。




hadoop2.0 针对1.0单NameNode制约HDFS的扩展性问题,提出HDFS Federation(联盟), 让多个NameNode分管不同的目录,实现访问隔离和横向扩展,同时彻底解决NameNode单点故障问题 基于共享存储的HA机制 HDFS + MapReduce + YARN MapReduce 数据处理 YARN 集群资源管理 将JobTracker中的资源管理和作业控制分开 ResourceManager 负责所有应用程序的资源分配 ApplicationMaster 负责管理一个应用程序 Yarn 通用 资源管理和调度框架,可用于 MapReduce Tez Spark Storm等 MapReducer2.0具有与MRv1相同的编程模型和数据处理引擎,唯一不同的是运行时环境。 运行于资源管理框架Yarn之上 Yarn 通用资源管理系统 ApplicationMaster 作业控制进程

上一篇     下一篇
aerospike key 说明

史上最强最骚程序员简历

linux中利用CGroup限制进程资源

CAPEX和OPEX的具体含义

架构的三个维度和六个层面

hadoop2.0生态技术简介