加速Spark编译

时间:2022-07-22
本文章向大家介绍加速Spark编译,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

今天看到 Spark 有一个挺好玩的 PR,打算本地合进来测试一下,那么这样就涉及到重新编译 Spark 的操作了。 看着本子已经挂着 Docker For Mac,打开 Kubernetes 已经吃掉了 8G 内存,还有若干 IDEA 打开着,我的本子一直呼呼在叫。 想起来以前在公司都是拿着测试服务器来做打包编译这些杂事的,所以到服务器上配置一下就好。 当然很多公司的服务器都是跟外网隔离的,但是幸运的是这些公司都会部署一个内网的 Maven 私有仓库,虽然有些公司自行开发内核,很多环境连 JDK 都没有,所以如果你需要跑 Spark 程序,你只需要 JRE 就够了,但是如果你需要在服务器上编译 Spark,那么你是需要 JDK 的。 不管怎么样,只要不限制上传文件,就可以把官网的 JDK 上传,安装好 Java 和 Maven,然后就可以搞起了。 最好的加速方法就是,有个专门的打包服务器,毕竟 Maven 是支持多线程构建的,而且测试服务器的资源,一般来说,都会比你本子多得多,如果有专用的拿来玩的服务器,那就更爽啦。

> mvn -T 8 -Pkubernetes -DskipTests clean package

-T 啥意思呢,看下面?

> mvn -h
...
 -T,--threads <arg>                     Thread count, for instance 2. where C is core multiplied
....

当然了,Spark 官方也有提供一些 Maven 配置的 Tips,可以参考下。

SBT 的动态编译一直都很骚,有空再说说。