从100万条数据中找到极大值所在行

时间:2022-07-23
本文章向大家介绍从100万条数据中找到极大值所在行,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

问题描述

今天在星球里看到了这道题,题目的详细见下图。

授信表(t_credit)的表结构:

字段

类型

描述

credit_ts

Date

授信时间

source_ch

String

客户来源渠道

customer_id

Integer

客户ID

amount

Float

客户额度

这道题目给出的两个信息需要特别关注:

  1. 授信表的数据有 100万;
  2. 最终结果只需要展示每个渠道的最后授信时间所在的行记录(100 条左右)。

解决方案

一般涉及到获取极大值/极小值的所在行记录的需求都可以用窗口函数来解决。

先对表数据按照客户来源渠道分组,再对分组内的数据按照授信时间降序排序,序号排在第一位的记录就是我们要找的记录。

具体的 SQL 实现如下:

SELECT
  credit_ts,
  source_ch,
  customer_id,
  amount
FROM
  (SELECT
    *,
    rank () over (
      PARTITION BY source_ch
  ORDER BY credit_ts DESC
  ) AS rn
  FROM
    t_credit) t
WHERE rn = 1

考虑到同一个渠道内的授信时间可能有重复,没有使用窗口函数 row_number() ,而是使用了 rank() ,也可以使用 dense_rank()

不过,由于 t_credit 表的数据量有 100万,而最终要查找的结果只有 100 条左右,使用窗口函数排序会有性能问题。如果对查询响应的时间有要求,可以考虑下面的方案。

首先,找到每个渠道的最后授信时间,这步的结果暂存在临时表 t 中,临时表 t 只有 100 条数据。然后,t 再和 t_credit 关联,获取到 t 中 100 条记录的明细信息(由于可能存在授信时间重复的记录,因此最终的结果有可能超过 100 条)。

每个渠道的最后授信时间可通过下面的 SQL 得到:

SELECT
  source_ch,
  MAX(credit_ts) AS max_credit_ts
FROM
  t_credit
GROUP BY source_ch

t 和 t_credit 关联获取到完整的结果:

SELECT
  t_credit.*
FROM
  t_credit
  INNER JOIN
    (SELECT
      source_ch,
      MAX(credit_ts) AS max_credit_ts
    FROM
      t_credit
    GROUP BY source_ch) t
    ON t.source_ch = t_credit.source_ch
    AND t.max_credit_ts = t_credit.credit_ts