pyspark之常用算子
时间:2022-07-23
本文章向大家介绍pyspark之常用算子,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
rdd=sc.paralelize([1,2,3,4,5])
#查看分区数
rdd.getNumPartitions()
输出:4
#数据按照分区形式打印
rd.glom().collect()
输出:[[1],[2],[3],[4,5]]
1、map和flatMap
2、reduce、fold、aggregate
(1)reduce
这里是两种方式,输出是:15
(2)fold
x:初始聚合值,y:当前元素,zero的值就是初始聚合值,初始聚合值的类型决定了最后返回的类型。
最终输出:13
(3) aggregate
第二行输出:[[2,4],[6,1]]
最后输出:13
3、filter, distinct
第二行结果:[1,2,3,2,3,4,3,4,5,4,5,6,5,6,7]
第四行结果:[2,2,4,4,6,6]
第五行结果:[1,2,3,4,5,6,7]
4、交集insersection、并集union、排序sortBy
5、PairRDD的算子
groupByKey、reduceByKey、aggregateByKey
reduceByKeyLocally:
返回的就不是rdd格式的了,返回一个字典。
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Docker部署常见应用
- Spring 中实现自动注入的几种方式
- Spring 容器的创建过程
- 04 Spring Boot 整合MyBatis
- OpenFeign服务调用
- Windows10安装JDK14
- IDEA 配置 maven 完美解决方案
- 06 Spring Boot 整合Shrio
- List集合转化为数组
- 小心,99%的面试者,都倒在了这里。一文带你了解spring全家桶
- 阿里P9整理Java 高频面试题聊一聊 JUC 下的 LinkedBlockingQueue
- Java环境配置
- 一次django内存异常排查
- Hystrix服务降级-服务熔断
- 自定义值类型一定不要忘了重写Equals,否则性能和空间双双堪忧