数仓基础知识笔记

时间:2021-08-19
本文章向大家介绍数仓基础知识笔记,主要包括数仓基础知识笔记使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

一、模型设计要求(三个范式):

  • 第一范式:字段都是单一属性,不可再分。
  • 第二范式:表中不存在非关键字段对任一候选关键字段的部分函数依赖。所有属性都依赖主键。
  • 第三范式:表中不存在非关键字段对任一候选关键字段的传递函数依赖。

二、模型设计过程:

  1. 概念模型:抽象业务,划分主题域。一般划分为:客户、服务、服务使用、账务、结算、资源、客服、营销
    • 主题域的设计方法:从业务上高度抽象归纳,将数据划分为不同的主题域。
  1. 逻辑模型:细化主题。定义实体关系和属性,定义表作用、约束、字段、ER图、业务驱动建模
  2. 物理模型:建表、索引,为了满足高性能的要求,可以增加冗余、隐藏表之间的约束等反第三范式操作。

三、模型的类型:

  • 星型模型:又称维度建模,将商业维度融合到数据模型中,为了分析方便,将同一维度的不同层次的维度都融合到事实表中。查询性能好,为了提高性能,可以允许违反第三范式,适当冗余,隐藏表之间约束。
  • 雪花模型:又称3NF模型。
  • 两种模型的共性是:都是由一个事实表和一组维度表组成。

四、数据处理过程:

中间层是数仓最重要的一层,决定了数仓的性能:

  1. 数据汇总。将底层数据按维度进行小颗粒度汇总
  2. 信息聚合。将多张表的信息聚合在一个表中,提高查询性能

原文地址:https://www.cnblogs.com/dorsher/p/14836363.html