首页 > 编程笔记 > 其他 > 大数据------MapReduce 计算流程

大数据------MapReduce 计算流程

时间:2019-08-29

本文章向大家介绍大数据------MapReduce 计算流程，主要包括大数据------MapReduce 计算流程使用实例、应用技巧、基本知识点总结和需要注意事项，具有一定的参考价值，需要的朋友可以参考一下。

ResourceManager：统筹计算资源，管理所有的NodeManager，进行资源分配

NodeManager：管理主机上计算资源Container负责向MR汇报自身的状态信息

MRAppMaster：计算任务的Master，负责申请计算资源，协调计算任务

YarnChild：负责做实际计算的任务/进程(MapTask/ReduceTask)

Container：是计算资源的抽象代表着一组内存/cpu/网络的占用，无论是MRAppMaster还是YranChild运势是都需要消耗一个Container逻辑

首先是通过程序员所编写的MR程序通过命令行本地提交或者IDE跨平台提交
一个MR程序就是一个Job，Job的信息会给ResourceManager,ResourceManager注册Job信息
ResouceManager注册通过后，Job会拷贝相关的资源信息(从HDFS中)
Job紧接着会向ResourceManager提交完整的应用信息(包括资源信息)
ResourceManager通过Job信息计算出当前Job所需要的资源，为Job分配Container(资源的单位)
这个Container信息会分发给NodeManager，NodeManger会创建MRAppMaster进程
此时MRAppMaster会初始化Job
然后会查询任务的切片
连接RM，请求分配资源，得到对应的资源，连接对应的NodeManager，在YarnChild上启动对应的Container
从分布式文件系统上拷贝Job资源
执行MR程序

原文地址：https://www.cnblogs.com/jia-0112/p/11432036.html

随机文章

本站知识点必读