Hive on Spark参数调优姿势小结
前言
Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些调优项。为了符合实际情况,Spark也采用on YARN部署方式来说明。
Driver参数
spark.driver.cores
该参数表示每个Executor可利用的CPU核心数。其值不宜设定过大,因为Hive的底层以HDFS存储,而HDFS有时对高并发写入处理不太好,容易造成race condition。根据我们的实践,设定在3~6之间比较合理。
假设我们使用的服务器单节点有32个CPU核心可供使用。考虑到系统基础服务和HDFS等组件的余量,一般会将YARN NodeManager的yarn.nodemanager.resource.cpu-vcores
参数设为28,也就是YARN能够利用其中的28核,此时将spark.executor.cores
设为4最合适,最多可以正好分配给7个Executor而不造成浪费。又假设yarn.nodemanager.resource.cpu-vcores
为26,那么将spark.executor.cores
设为5最合适,只会剩余1个核。
由于一个Executor需要一个YARN Container来运行,所以还需保证spark.executor.cores
的值不能大于单个Container能申请到的最大核心数,即yarn.scheduler.maximum-allocation-vcores
的值。
spark.executor.memory/spark.yarn.executor.memoryOverhead
这两个参数分别表示每个Executor可利用的堆内内存量和堆外内存量。堆内内存越大,Executor就能缓存更多的数据,在做诸如map join之类的操作时就会更快,但同时也会使得GC变得更麻烦。Hive官方提供了一个计算Executor总内存量的经验公式,如下:
yarn.nodemanager.resource.memory-mb * (spark.executor.cores / yarn.nodemanager.resource.cpu-vcores)
其实就是按核心数的比例分配。在计算出来的总内存量中,80%~85%划分给堆内内存,剩余的划分给堆外内存。
假设集群中单节点有128G物理内存,yarn.nodemanager.resource.memory-mb
(即单个NodeManager能够利用的主机内存量)设为120G,那么总内存量就是:120 * 1024 * (4 / 28) ≈ 17554MB。再按8:2比例划分的话,最终spark.executor.memory
设为约13166MB,spark.yarn.executor.memoryOverhead
设为约4389MB。
与上一节同理,这两个内存参数相加的总量也不能超过单个Container最多能申请到的内存量,即yarn.scheduler.maximum-allocation-mb
。
spark.executor.instances
该参数表示执行查询时一共启动多少个Executor实例,这取决于每个节点的资源分配情况以及集群的节点数。若我们一共有10台32C/128G的节点,并按照上述配置(即每个节点承载7个Executor),那么理论上讲我们可以将spark.executor.instances
设为70,以使集群资源最大化利用。但是实际上一般都会适当设小一些(推荐是理论值的一半左右),因为Driver也要占用资源,并且一个YARN集群往往还要承载除了Hive on Spark之外的其他业务。
spark.dynamicAllocation.enabled
上面所说的固定分配Executor数量的方式可能不太灵活,尤其是在Hive集群面向很多用户提供分析服务的情况下。所以更推荐将spark.dynamicAllocation.enabled
参数设为true,以启用Executor动态分配。
Driver参数
spark.driver.cores
该参数表示每个Driver可利用的CPU核心数。绝大多数情况下设为1都够用。
spark.driver.memory/spark.driver.memoryOverhead
这两个参数分别表示每个Driver可利用的堆内内存量和堆外内存量。根据资源富余程度和作业的大小,一般是将总量控制在512MB~4GB之间,并且沿用Executor内存的“二八分配方式”。例如,spark.driver.memory
可以设为约819MB,spark.driver.memoryOverhead
设为约205MB,加起来正好1G。
Hive参数
绝大部分Hive参数的含义和调优方法都与on MR时相同,但仍有两个需要注意。
hive.auto.convert.join.noconditionaltask.size
我们知道,当Hive中做join操作的表有一方是小表时,如果hive.auto.convert.join
和hive.auto.convert.join.noconditionaltask
开关都为true(默认即如此),就会自动转换成比较高效的map-side join。而hive.auto.convert.join.noconditionaltask.size
这个参数就是map join转化的阈值,在Hive on MR下默认为10MB。
但是Hive on MR下统计表的大小时,使用的是数据在磁盘上存储的近似大小,而Hive on Spark下则改用在内存中存储的近似大小。由于HDFS上的数据很有可能被压缩或序列化,使得大小减小,所以由MR迁移到Spark时要适当调高这个参数,以保证map join正常转换。一般会设为100~200MB左右,如果内存充裕,可以更大点。
hive.merge.sparkfiles
小文件是HDFS的天敌,所以Hive原生提供了合并小文件的选项,在on MR时是hive.merge.mapredfiles
,但是on Spark时会改成hive.merge.sparkfiles
,注意要把这个参数设为true。至于小文件合并的阈值参数,即hive.merge.smallfiles.avgsize
与hive.merge.size.per.task
都没有变化。
- 【直播】我的基因组59:把我的数据伪装成23andme或wegene的芯片数据
- asp.net web api客户端调用
- 细说WebSocket - Node篇
- TensorFlow从0到1丨 第六篇:解锁梯度下降算法
- .Net多线程编程—误用点分析
- Web开发常见的几个漏洞解决方法
- .Net多线程编程—同步机制
- .Net多线程编程—Parallel LINQ、线程池
- 没有自己的服务器如何学习生物数据分析(下篇)
- .Net多线程编程—并发集合
- .Net多线程编程—任务Task
- 学会WCF之试错法——安全配置报错分析
- 生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构
- 学会WCF之试错法——超时
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 最详细的docker中安装并配置redis
- 剑指Offer LeetCode 面试题59 - I. 滑动窗口的最大
- 剑指Offer LeetCode 面试题58 - II. 左旋转字符串
- 剑指Offer LeetCode 面试题58 - I. 翻转单词顺序
- 剑指Offer LeetCode 面试题56 - II. 数组中数字出现的次数 II
- 站在软件工程的角度重新思考面向对象(含高清图谱)
- 剑指Offer LeetCode 面试题57. 和为s的两个数字
- 白嫖Layui树型可折叠,可自定义,可搜索表格的实例
- 剑指Offer LeetCode 面试题53 - II. 0~n-1中缺失的数字
- 聊聊dubbo-go的DubboPackage
- 剑指Offer LeetCode 面试题53 - I. 在排序数组中查找数字 I
- Java虚拟机运行时数据区精华总结
- 剑指Offer LeetCode 面试题50. 第一个只出现一次的字符
- 剑指Offer LeetCode 面试题40. 最小的k个数
- 剑指Offer LeetCode 面试题39. 数组中出现次数超过一半的数字