Spark 读取 Hbase 优化 --手动划分 region 提高并行数
一. Hbase 的 region
我们先简单介绍下 Hbase 的 架构和 region :
从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又可以有多个 Hregion(以下简称 region)。要读取一个数据的时候,首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候,读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。所以当 region 存储设置得比较大导致 region 比较少,而 spark 的 cpu core 又比较多的时候,就会出现无法充分利用 spark 集群所有 cpu core 的情况。
我们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。
- Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。在自动split策略中,当一个region达到一定的大小就会自动split成两个region。
- Region由一个或者多个Store组成,每个store保存一个columns family,每个Strore又由一个memStore和0至多个StoreFile 组成。memStore存储在内存中, StoreFile存储在HDFS上。
- region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上,但并不是存储的最小单元。
二. Spark 读取 Hbase 优化及 region 手动拆分
在用spark的时候,spark正是根据hbase有多少个region来划分stage。也就是说region划分得太少会导致spark读取时的并发度太低,浪费性能。但如果region数目太多就会造成读写性能下降,也会增加ZooKeeper的负担。所以设置每个region的大小就很关键了。
自0.94.0版本以来,split还有三种策略可以选择,不过一般使用默认的分区策略就可以满足需求,我们要修改的是会触发 region 分区的存储容量大小。
而在0.94.0版本中,默认的 region 大小为10G,就是说当存储的数据达到 10 G 的时候,就会触发 region 分区操作。有时候这个值可能太大,这时候就需要修改配置了。我们可以在 HBASE_HOME/conf/hbase-site.xml 文件中,增加如下配置:
<property>
<name>hbase.hregion.max.filesize</name>
<value>536870912</value>
</property>
其中的 value 值就是你要修改的触发 region 分区的大小,要注意这个值是以 bit 为单位的,这里是将region文件的大小改为512m。
修改之后我们就可以手动 split region了,手动分区会自动根据这个新的配置值大小,将 region 已经存储起来的数据进行再次进行拆分。
我们可以在 hbase shell 中使用 split 来进行操作,有以下几种方式可以进行手动拆分。
split ‘tableName’
split ‘namespace:tableName’
split ‘regionName’ # format: ‘tableName,startKey,id’
split ‘tableName’, ‘splitKey’
split ‘regionName’, ‘splitKey’
这里使用的是 split ‘namespace:tableName’ 这种方式。其中 tableName 自不必多说,就是要拆分的表名,namespace可以在hbase的web界面中查看,一般会是default。
使用命令之后稍等一会,hbase会根据新的region文件大小去split,最终结果可以在web-ui的"table Details"一栏,点击具体table查看。
以上~
- Selenium2+python自动化53-unittest批量执行(discover)
- HTML/CSS/JavaScript学习笔记【持续更新】
- Selenium2+python自动化54-unittest生成测试报告(HTMLTestRunner)
- Selenium2+python自动化55-unittest之装饰器(@classmethod)
- 每天一个Linux命令(4)——mkdir
- 每天一个Linux命令(3)——pwd
- 11-移动端开发教程-zepto.js入门教程
- 【OpenCV学习笔记之一】图像加载,修改及保存
- 【干货】一种直观的方法认识梯度下降
- 漫谈Java IO之普通IO流与BIO服务器
- 浅谈强化学习的方法及学习路线
- 【亲测有效】Win10家庭版Microsoft Edge页面出现乱码的两种解决方案及gpedit.msc命令无法使用的解决策略
- Fiddler抓包7-post请求(json)
- Selenium2+python自动化56-unittest之断言(assert)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Laravel 登录后清空COOKIE的操作方法
- 使用laravel和ajax实现整个页面无刷新的操作方法
- Laravel 读取 config 下的数据方法
- PHP实现数组根据某个字段进行水平合并,横向合并案例分析
- laravel框架上传图片实现实时预览功能
- PHP 多进程与信号中断实现多任务常驻内存管理实例方法
- Yii 框架控制器创建使用及控制器响应操作示例
- laravel-admin 实现给grid的列添加行数序号的方法
- Laravel 自动生成验证的实例讲解:login / logout
- 关于Laravel-admin的基础用法总结和自定义model详解
- 解决Laravel5.2 Auth认证退出失效的问题
- php输出文字乱码的解决方法
- laravel-admin表单提交隐藏一些数据,回调时获取数据的方法
- laravel 5.3 单用户登录简单实现方法
- Thinkphp5.0 框架的请求方式与响应方式分析