Spark Storage ② - BlockManager 的创建与注册
本文为 Spark 2.0 源码分析笔记,某些实现可能与其他版本有所出入
上一篇文章介绍了 Spark Storage 模块的整体架构,本文将着手介绍在 Storeage Master 和 Slave 上发挥重要作用的 BlockManager 是在什么时机以及如何创建以及注册的。接下来分别介绍 Master 端和 Slave 端的 BlockManager。
为了方便阅读,后文中将以 Master 作为 Storage Master(driver) 端的 BlockManager 的简称,以 Slave 作为 Storage Slave(executor) 端的 BlockManager 的简称。
BlockManager 创建时机
Master 创建时机
在 driver 端,构造 SparkContext 时会创建 SparkEnv 实例 _env,创建 _env 是通过调用 object SparkEnv 的 create 方法,在该方法中会创建 Master,即 driver 端的 blockManager。
所以,简单来说,Master 是在 driver 创建 SparkContext 时就创建了。
Slave 创建时机
在 worker 进程起来的的时候,object CoarseGrainedExecutorBackend
初始化时会通过调用 SparkEnv#createExecutorEnv
,在该函数中会创建 executor 端的 BlockManager,也即 Slave。这之后,CoarseGrainedExecutorBackend 才向 driver 注册 executor,然后再构造 Executor 实例。
接下来,我们看看 BlockManager 是如何创建的。
创建 BlockManager
一图胜千言,我们还是先来看看 Master 是如何创建的:
图1: 创建 BlockManage
结合上图我们来进行 Step By Step 的分析
Step1: 创建 RpcEnv 实例 rpcEnv
这一步通过 systemName、hostname、port 等创建一个 RpcEnv 类型实例 rpcEnv,更具体的说是一个 NettRpcEnv 实例,在 Spark 2.0 中已经没有 akka rpc 的实现,该 rpcEnv 实例用于:
- 接受稍后创建的 rpcEndpoint 的注册并持有 rpcEndpoint(该 rpcEndpoint 用于接收对应的 rpcEndpointRef 发送的消息以及将消息指派给相应的函数处理)
- 持有一个消息分发器
dispatcher: Dispatcher
,将接收到的消息分发给相应的 rpcEndpoint 处理
Step2: 创建 BlockManagerMaster 实例 blockManagerMaster
BlockManagerMaster 持有 driverRpcEndpointRef,其包含各种方法通过该 driverRpcEndpointRef 来给 Master 发送各种消息来实现注册 BlockManager、移除 block、获取/更新 block、移除 Broadcast 等功能。
如上图所示,创建 BlockManagerMaster 的流程如下:
- 先创建 BlockManagerMasterEndpoint 实例
- 对于 master(on driver),将上一步得到的 blockManagerMasterEndpoint 注册到 driverRpcEnv,以供之后driverRpcEnv 中的消息分发器分发消息给它来处理特定的消息,并返回 driverRpcEndpointRef;而对于 slave(on executor),通过 driverHost、driverPort 获取 driverRpcEndpointRef
- 利用上一步构造的 driverRpcEndpointRef,结合 sparkConf 及是否是 driver 标记来构造 BlockManagerMaster 实例
Step3: 创建 BlockManager 实例
结合 Step1 中创建的 rpcEnv,Step2 中创建的 blockManagerMaster 以及 executorId、memoryManager、mapOutputTracker、shuffleManager 等创建 BlockManager 实例。该 BlockManager 也就是 Storage 模块的 Master 或 Slave 了。
BlockManager 运行在所有的节点上,包括 driver 和 executor,用来存取在本地或远程节点上的 blocks,blocks 可以是在内存中、磁盘上火对外内存中。
注册 BlockManager
BlockManager 实例在被创建后,不能直接使用,必须调用其 initialize
方法才能使用。对于 Master,是在 BlockManager 创建后就调用了 initialize
方法;对于 Slave,是在 Executor 的构造函数中调用 initialize
方法进行初始化。
在 initialize
方法中,会进行 BlockManager 的注册,具体操作时通过 driverRpcEndpointRef 发送 RegisterBlockManager
消息
- 微信小程序的省市选择组件 citySelector分享
- 详述 Java 语言中的 String、StringBuffer 和 StringBuilder 的使用方法及区别
- Class与Style绑定
- 机器学习并不难
- android的RadioGroup讲解
- asp.net MVC 应用程序的生命周期
- 091031 T PowerShell Solution
- Rafy 框架 - 通用查询条件(CommonQueryCriteria)
- Vue.js系列之三模板语法
- EF基础知识小记三(设计器=>数据库)
- 性能优化总结(二):聚合SQL
- Vue.js系列之四计算属性和观察者
- EF基础知识小记四(数据库=>模型设计器)
- OEA ORM 框架中的冗余属性设计
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 聊聊claudb的string command
- windows下安装nodejs
- 【Java面试总结】Java集合
- 《JavaScript 模式》读书笔记(8)— DOM和浏览器模式1
- 《JavaScript 模式》读书笔记(8)— DOM和浏览器模式2
- 5000字 | 24张图带你彻底理解21种并发锁
- JavaScript-变量
- Android应用安装卸载监控
- 细数这些年被困扰过的 TS 问题
- 将WordPress插件Elementor标签插入到WordPress模板文件以使用Elementor编辑
- WordPress自定义新建多区域widget小工具调用
- WordPress调用分类目录 及输出当前分类下的二级目录 和分类文章数量显示
- CSS让Li标签溢出后自动换行
- docker里运行docker命令
- 一次性实战java8 新特性(全)—— Lambda、Optional、stream、DateTime