用java提交一个Spark应用程序
时间:2022-04-25
本文章向大家介绍用java提交一个Spark应用程序,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
第一种方式
经常有人在公众号留言或者在群里问浪尖,如何使用java代码提交一个Spark应用程序。在这里浪尖介绍一种简单的方法来实现这个功能。
首先用vim打开一个文件,MyLauncher.java
编写代码如下:
import org.apache.spark.launcher.SparkAppHandle;
import org.apache.spark.launcher.SparkLauncher;
import java.util.HashMap;
public class MyLauncher {
public static void main(String[] args) throws Exception {
HashMap<String,String> map = newHashMap<String, String>();
map.put("HADOOP_CONF_DIR","/home/hadoop/conf");
map.put("YARN_CONF_DIR","/home/hadoop/conf");
map.put("SPARK_CONF_DIR","/home/hadoop/spark/conf");
new SparkLauncher(map)
.setAppResource("/data/newStreaming/uesc-analyzer.jar")
.setMainClass("ucloud.UESBash.testSchema")
.setMaster("yarn-cluster")
.setConf(SparkLauncher.DRIVER_MEMORY, "2g")
.setVerbose(true).startApplication();
Thread.sleep(100000);
// Use handle API to monitor / control application.
}
}
接着,进行编译
javac -cp /home/hadoop/spark/lib/spark-assembly-1.6.0-hadoop2.6.0-cdh5.4.9.jarMyLauncher.java
然后提交执行
java -cp/home/hadoop/spark/lib/spark-assembly-1.6.0-hadoop2.6.0-cdh5.4.9.jar:.MyLauncher
这样就可以在yarn的界面上看到运行情况了。
注释:可能你比较奇怪我为啥在那加了个停顿,因为正常情况下我们要进行一些其它操作监控Spark应用而不是直接退出,直接退出可能会导致提交还没完成退出,以至于应用程序不能被提交了。
当然,还有另外一种方式,但是不建议使用,上面采用的这种方式呢可以更好地监控我们Spark程序的状态。
第二种方式
import org.apache.spark.launcher.SparkAppHandle;
import org.apache.spark.launcher.SparkLauncher;
import java.util.HashMap;
public class MyLauncher {
public static void main(String[] args) throws Exception {
HashMap<String,String> map = newHashMap<String, String>();
map.put("HADOOP_CONF_DIR","/home/hadoop/conf");
map.put("YARN_CONF_DIR","/home/hadoop/conf");
map.put("SPARK_CONF_DIR","/home/hadoop/spark/conf");
Process spark = new SparkLauncher(map)
.setAppResource("/data/newStreaming/uesc-analyzer.jar")
.setMainClass("ucloud.UESBash.testSchema")
.setMaster("yarn-cluster")
.setConf(SparkLauncher.DRIVER_MEMORY, "2g")
.setVerbose(true).launch();
// Use handle API to monitor / control application.
spark.waitFor();
}
}
第二种方式是启动了一个子进程来加载提交应用程序。
至于SparkLauncher其它标准函数操作,比如如何传参,如何指定内存,cpu,如何指定钩子函数这些浪尖就不在这里啰嗦了,有兴趣可以去翻看这个类的源码。也可以在公众号里输入:submit,来获取这个类和钩子函数使用的复杂代码。
- 分页解决方案 之 QuickPager的使用方法(PostBack分页、自动获取数据)
- 【自然框架】之鼠标点功能现(二):表单控件的“应用”—— 代码?只写需要的!
- 基于Docker环境中源码部署容器Nginx
- 使用Ansible playbooks快速构建etcd集群
- 使用系统内置script和scriptreplay命令来记录操作记录
- 【机器学习】我在面试机器学习、大数据岗位时遇到的各种问题
- 【机器学习】机器学习编程语言之争狼烟再起,Python称霸?
- TiDB 1.1 Beta Release
- 【Python环境】Python面试题汇总(二)
- 【Python环境】Python性能优化的20条建议
- 【Python环境】Python面试题汇总(一)
- 如何优雅的编写Dockerfile
- 【干货】找不到适合自己的编程书?我自己动手写了一个热门编程书搜索网站(附PDF书单)
- Docker监控方案(TIG)的研究与实践之Influxdb
- java教程
- Java快速入门
- Java 开发环境配置
- Java基本语法
- Java 对象和类
- Java 基本数据类型
- Java 变量类型
- Java 修饰符
- Java 运算符
- Java 循环结构
- Java 分支结构
- Java Number类
- Java Character类
- Java String类
- Java StringBuffer和StringBuilder类
- Java 数组
- Java 日期时间
- Java 正则表达式
- Java 方法
- Java 流(Stream)、文件(File)和IO
- Java 异常处理
- Java 继承
- Java 重写(Override)与重载(Overload)
- Java 多态
- Java 抽象类
- Java 封装
- Java 接口
- Java 包(package)
- Java 数据结构
- Java 集合框架
- Java 泛型
- Java 序列化
- Java 网络编程
- Java 发送邮件
- Java 多线程编程
- Java Applet基础
- Java 文档注释
- Spark SQL | 目前Spark社区最活跃的组件之一
- 关于 MySQL Repeatable Read Isolation 常见的三个误区
- Spring源码-循环依赖(附25张调试截图)
- 二叉查找树
- 尺取法
- 关于一些技术点的随笔记录(二)
- 快速排序与三路快速排序
- 垃圾回收器 Krains 2020-08-07
- OWIN 请求处理与中间件
- 关于Spring AOP,除了动态代理、CGLIB,你还知道什么?
- elasticSearch学习(三)
- 挑苹果中的行为参数化思想
- 详解MapReduce(Spark和MapReduce对比铺垫篇)
- 使用 OWIN 作为 ASP.NET Web API 的宿主
- 二进制源码和补码的基础解释