从100万条数据中找到极大值所在行
时间:2022-07-23
本文章向大家介绍从100万条数据中找到极大值所在行,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
问题描述
今天在星球里看到了这道题,题目的详细见下图。
授信表(t_credit)的表结构:
字段 |
类型 |
描述 |
---|---|---|
credit_ts |
Date |
授信时间 |
source_ch |
String |
客户来源渠道 |
customer_id |
Integer |
客户ID |
amount |
Float |
客户额度 |
这道题目给出的两个信息需要特别关注:
- 授信表的数据有 100万;
- 最终结果只需要展示每个渠道的最后授信时间所在的行记录(100 条左右)。
解决方案
一般涉及到获取极大值/极小值的所在行记录的需求都可以用窗口函数来解决。
先对表数据按照客户来源渠道分组,再对分组内的数据按照授信时间降序排序,序号排在第一位的记录就是我们要找的记录。
具体的 SQL 实现如下:
SELECT
credit_ts,
source_ch,
customer_id,
amount
FROM
(SELECT
*,
rank () over (
PARTITION BY source_ch
ORDER BY credit_ts DESC
) AS rn
FROM
t_credit) t
WHERE rn = 1
考虑到同一个渠道内的授信时间可能有重复,没有使用窗口函数 row_number()
,而是使用了 rank()
,也可以使用 dense_rank()
。
不过,由于 t_credit 表的数据量有 100万,而最终要查找的结果只有 100 条左右,使用窗口函数排序会有性能问题。如果对查询响应的时间有要求,可以考虑下面的方案。
首先,找到每个渠道的最后授信时间,这步的结果暂存在临时表 t 中,临时表 t 只有 100 条数据。然后,t 再和 t_credit 关联,获取到 t 中 100 条记录的明细信息(由于可能存在授信时间重复的记录,因此最终的结果有可能超过 100 条)。
每个渠道的最后授信时间可通过下面的 SQL 得到:
SELECT
source_ch,
MAX(credit_ts) AS max_credit_ts
FROM
t_credit
GROUP BY source_ch
t 和 t_credit 关联获取到完整的结果:
SELECT
t_credit.*
FROM
t_credit
INNER JOIN
(SELECT
source_ch,
MAX(credit_ts) AS max_credit_ts
FROM
t_credit
GROUP BY source_ch) t
ON t.source_ch = t_credit.source_ch
AND t.max_credit_ts = t_credit.credit_ts
- 使用 github 做代码管理,知道这些就够了
- 二叉树就这么简单
- Elasticsearch就是这么简单
- 让 MyBatis Generator 变的更简单
- SpringMVC【参数绑定、数据回显、文件上传】
- SDNLAB技术分享(五):浅谈Open vSwitch移植
- SpringMVC【校验器、统一处理异常、RESTful、拦截器】
- OpenStack与SDN控制器的集成
- 使用机器学习算法对流量分类的尝试——基于样本分类
- 曾经做过的40道程序设计课后习题总结(一)
- 基于ODL与Pica8交换机端到端的限速实验
- SpringBoot就是这么简单
- SpringData JPA就是这么简单
- Openflow细节理解之—Buffer_id篇
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- caffe详解之mnist手写体识别
- Python数据分析之基础篇(一)
- Python数据分析之基础篇(二)
- linux操作系统df、du命令
- Python数据分析之基础篇(三)
- Python数据分析之matplotlib(基础篇)
- Python数据分析之matplotlib(提高篇)
- Python数据分析之matplotlib(应用篇)
- Intel OpenCL 之 Pipeline(一):基本概念
- Intel OpenCL 之 Pipeline(二)For循环的执行机制
- Intel OpenCL 之 Pipeline(三)不能pipeline的可能情况
- Intel OpenCL 之 Pipeline(四):Pipeline不理想的几种情况
- Python数据分析之NumPy(基础篇)
- Python数据分析之NumPy(运算篇)
- Python数据分析之NumPy(高级篇)