spark笔记

时间:2020-05-12
本文章向大家介绍spark笔记,主要包括spark笔记使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

======spark 提交应用程序=======

1. 进入spark安装目录的bin,调试spark-submit脚本

2. 在脚本后面传入参数

  1. ---class 你的应用的主类

  2. ---master 你的应用运行的模式 Local ,Local[n] ,Spark://hostname:port

  3.[可选] 你可以指定 --deploy-mode client模式 或者cluster模式.

  4. 你的应用jar包的位置

  5. 你的应用的参数.

创建RDD.

1. 从集合中创建rdd

两种方法. 

方法1.

scala> val prdd =sc.parallelize(1 to 10)
prdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24


scala> val prdd =sc.parallelize(1 to 10)
prdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

方法2.

scala> var mrdd =sc.makeRDD(0 to 10)
mrdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at makeRDD at <console>:24

scala> mrdd.collect
res0: Array[Int] = Array(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10)                      

2. 从外部存储创建rdd

3.从其他rdd转换

原文地址:https://www.cnblogs.com/mengbin0546/p/12852361.html