Hive小知识之分桶抽样
时间:2022-07-22
本文章向大家介绍Hive小知识之分桶抽样,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
先把大家都知道的分桶抽样查询 的语法以及用法po出
select * from 分桶表 tablesample(bucket x out of y on 分桶字段);
假设当前分桶表,一共分了z桶!
x: 代表从当前的第几桶开始抽样
0<x<=y
y: z/y 代表一共抽多少桶!
y必须是z的因子或倍数!
怎么抽:从第x桶开始抽,当y<=z每间隔y桶抽一桶,直到抽满 z/y桶
举例1:
select * from stu_buck2 tablesample(bucket 1 out of 2 on id);
从第1桶开始抽,每间隔2桶抽一桶,一共抽2桶!
桶号:x+y*(n-1) 抽0号桶和2号桶
举例2:
select * from stu_buck2 tablesample(bucket 1 out of 1 on id);
从第1桶开始抽,每间隔1桶抽一桶,一共抽4桶!
抽0,1,2,3号桶
举例3:
select * from stu_buck2 tablesample(bucket 2 out of 8 on id);
从第2桶开始抽,一共抽0.5桶!
抽1号桶的一半
然而,当我自己实验时,发现实际情况跟预期有偏差
建表语句:
--创建分桶表
create table people (id int,name string)
clustered by (id)
sorted by (name desc) into 4 buckets
row format delimited fields terminated by 't';
--创建临时表
create table tmp (id int,name string)
row format delimited fields terminated by 't';
--加载数据
load data local inpath '/home/guigu/data.txt' into table tmp;
--加载数据到分桶表
insert overwrite table people
select * from tmp;
然而查询时却发现 本来打算取第2个桶里的4/8 数据,但返回的数据跟预期差得很多
其实
select * from 分桶表 tablesample(bucket x out of y on 分桶字段); 这个抽样查询的底层是把所有数据按照 字段的hash值 % y 分成y 个 区(相当于Hadoop里的分区),然后取第 x 区 中的数据。 之所以没有达到预期的效果,是因为用来测试的数据太少!
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- StringBuffer StringBulider String的区别
- 求X值问题
- python-剑指offer21-40
- Java8实战--引入流
- ThingJS数据对接方法介绍——Ajax
- python-剑指offer41-62
- 【python-opencv】读取、显示、写入图像
- WSL——windows上的linux子系统
- 【python-opencv】读取、显示、保存视频
- 超级账本——Hyperledger Fabric
- 【python-opencv】绘图(目标检测框及其置信度等)
- 哈希表:哈希值太大了,还是得用set
- 哈希表:今天你快乐了么?
- 简单二分法查找(binary search)
- 【python-opencv】鼠标作为画笔