如何在CDH中启用Spark Thrift
1.文档编写目的
CDH 自带的Spark 不支持Spark Thrift,因为spark-assembly jar中缺少Hive thrift相关的依赖包,导致CDH用户没法使用JDBC的方式连接Spark并使用Spark SQL。Apache Spark 1.6之后spark-assembly jar 中包含了 Hive 相关的依赖包了,而恰好 CDH5.13 的 spark也是 1.6,所以可以直接使用Apache Spark 1.6 之后的spark-assembly jar替换CDH的。
本次测试选用的spark-assembly jar 包是Apache Spark1.6.3版本,而CDH中的Spark是1.6.0。本篇文章主要讲述如何在CDH中启用Spark Thrift。
- 内容概述
1.部署spark-assembly Jar包
2.部署Spark ThriftServer启动和停止脚本
3.Spark ThriftServer启动与停止
4.总结
- 测试环境
1.CM和CDH版本为5.13.0
2.采用root用户操作
- 前置条件
1.Spark1.6.0 On Yarn模式
2.部署Spark-assembly Jar包
1.下载spark-1.6.3-bin-hadoop2.6.tgz,下载地址如下:
https://www.apache.org/dyn/closer.lua/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz
2.将下载的spark-1.6.3-bin-hadoop2.6.tgz上传至集群的任意节点并解压,这里以cdh02节点为例
[root@cdh02 ~]# tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz
3.将解压出来的spark-assembly-1.6.3-hadoop2.6.0.jar拷贝至CDH的jars目录
[root@cdh02 spark-1.6.3-bin-hadoop2.6]# scp /root/spark-1.6.3-bin-hadoop2.6/lib/spark-assembly-1.6.3-hadoop2.6.0.jar /opt/cloudera/parcels/CDH/jars/
4.替换CDH中spark默认的spark-assembly jar包
[root@cdh02 lib]# cd /opt/cloudera/parcels/CDH/lib/spark/lib
[root@cdh02 lib]# rm -rf spark-assembly-1.6.0-cdh5.13.0-hadoop2.6.0-cdh5.13.0.jar
[root@cdh02 lib]# ln -s ../../../jars/spark-assembly-1.6.3-hadoop2.6.0.jar spark-assembly-1.6.0-cdh5.13.0-hadoop2.6.0-cdh5.13.0.jar
5.将spark-assembly-1.6.3-hadoop2.6.0.jar包上传至HDFS目录
[root@cdh02 lib]# sudo -u spark hadoop fs -mkdir -p /user/spark/share/lib
[root@cdh02 lib]# sudo -u spark hadoop fs -put /opt/cloudera/parcels/CDH/jars/spark-assembly-1.6.3-hadoop2.6.0.jar /user/spark/share/lib
[root@cdh02 lib]# sudo -u spark hadoop fs -chmod 755 /user/spark/share/lib/spark-assembly-1.6.3-hadoop2.6.0.jar
6.在CM上对Spark进行配置,配置如下:
保存配置并重启Spark服务。
7.修改/etc/spark/conf/ classpath.txt文件在末尾增加如下内容
/opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/jars/spark-lineage_2.10-1.6.0-cdh5.13.0.jar
由于CDH5.11以后版本,Navigator2.10增加了Spark的血缘分析,所以这里需要添加spark-lineage_2.10-1.6.0-cdh5.13.0.jar包,否则连接Spark会报错找不到com.cloudera.spark.lineage.ClouderaNavigatorListener类。
3.部署Spark ThriftServer启动和停止脚本
1.拷贝Spark ThriftServer启动和停止脚本
将 spark-1.6.3-bin-hadoop2.6/sbin/目录下的 start-thriftserver.sh 和 stop-thriftserver.sh 脚本拷贝到/opt/cloudera/parcels/CDH/lib/spark/sbin目录下,并设置执行权限。
[root@cdh02 sbin]# scp start-thriftserver.sh stop-thriftserver.sh /opt/cloudera/parcels/CDH/lib/spark/sbin/
[root@cdh02 sbin]# chmod +x /opt/cloudera/parcels/CDH/lib/spark/sbin/*thriftserver.sh
[root@cdh02 sbin]# ll /opt/cloudera/parcels/CDH/lib/spark/sbin/
2.修改 load-spark-env.sh 脚本,这个脚本是启动 spark 相关服务时加载环境变量信息的
[root@ip-172-31-5-190 sbin]# cd /opt/cloudera/parcels/CDH/lib/spark/bin
[root@ip-172-31-5-190 bin]# pwd
/opt/cloudera/parcels/CDH/lib/spark/bin
[root@ip-172-31-5-190 bin]#
将注释掉exec "$SPARK_HOME/bin/$SCRIPT""$@",因为在start-thriftserver.sh脚本中会执行这个命令
4.启动与停止Spark ThriftServer
1.启动Spark ThriftServer服务
[root@ip-172-31-5-190 sbin]# ./start-thriftserver.sh
检查端口是否监听
[root@ip-172-31-5-190 sbin]# netstat -an |grep 10000
注意:为了防止跟HiveServer2的10000端口冲突,可以自己修改Spark ThriftServer的启动端口。
通过Yarn查看
2.停止服务
[root@ip-172-31-5-190 sbin]# ./stop-thriftserver.sh
检查端口是否已停止
5.测试Spark Thrift
1.使用beeline通过JDBC连接Spark,可以发现连接的是Spark SQL
[root@ip-172-31-5-190 ~]# beeline
beeline> !connect jdbc:hive2://ip-172-31-5-190:10000
Enter username for jdbc:hive2://ip-172-31-5-190:10000: hive
Enter password for jdbc:hive2://ip-172-31-5-190:10000:
2.运行SQL测试
0: jdbc:hive2://ip-172-31-5-190:10000> show tables;
0: jdbc:hive2://ip-172-31-5-190:10000> select count(*) from test_table;
0: jdbc:hive2://ip-172-31-5-190:10000> select * from test;
0: jdbc:hive2://ip-172-31-5-190:10000> select * from test_table;
0: jdbc:hive2://ip-172-31-5-190:10000> select count(test_table.s2) from test_table join test on test_table.s1=test.s1;
3.在Yarn的8088中查看Spark任务,可以发现都是通过Spark执行的。
6.总结
- CDH默认不支持Spark Thrift,需要使用Spark原生的spark-assembly jar包替换CDH自带的jar包
- CDH5.11版本以后,Navigator2.10增加了Spark的血缘分析,所以需要将spark-lineage的jar加载的Spark的运行环境。否则连接Spark会报错找不到com.cloudera.spark.lineage.ClouderaNavigatorListener类。CDH5.10或之前版本不用加载这个jar包。参考: https://www.cloudera.com/documentation/enterprise/release- notes/topics/cn_rn_known_issues.html#spark
- QuickPager asp.net 分页控件、表单控件等自定义控件下载 和介绍 【2009.09.07更新】
- 分页解决方案 之 QuickPager的使用方法(PostBack分页、自动获取数据)
- 【自然框架】之鼠标点功能现(二):表单控件的“应用”—— 代码?只写需要的!
- 基于Docker环境中源码部署容器Nginx
- 使用Ansible playbooks快速构建etcd集群
- 使用系统内置script和scriptreplay命令来记录操作记录
- 【机器学习】我在面试机器学习、大数据岗位时遇到的各种问题
- 【机器学习】机器学习编程语言之争狼烟再起,Python称霸?
- TiDB 1.1 Beta Release
- 【Python环境】Python面试题汇总(二)
- 【Python环境】Python性能优化的20条建议
- 【Python环境】Python面试题汇总(一)
- 如何优雅的编写Dockerfile
- 【干货】找不到适合自己的编程书?我自己动手写了一个热门编程书搜索网站(附PDF书单)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 12.深入k8s:kubelet创建pod流程源码分析
- (较为详细)树的遍历方式一览(附完整源码可在VScode与cb运行)
- 【Java】12 Map 集合
- 【Java】11 Set 集合
- 4.表格-HTML基础
- 2.语义化-HTML进阶
- MATLAB 与 C 语言的混合编程
- leetcode树之二叉树的层平均值
- C++雾中风景15:聊聊让人抓狂的Name Mangling
- 【Java】15 File 类
- seaborn更高效的统计图表制作工具
- 牛客2019跨年AK场题解(一)
- qiankun proxySand 沙箱
- MATLAB 与 C 语言的混合编程实战之辛普森积分法、自适应辛普森积分
- Java那些事之JDK环境配置及集成开发环境Eclipse安装