mysql索引原理,看这篇就够啦
前言
网上已经有了很多相关mysql索引原理的文章,但是都存在一些问题,有的是直接复制别人的比较老的文章,有的直接开篇讲B+Tree的原理,过程不是很清楚,即使原理讲清楚了,没有各种数据结构的对比也很难体现出B+Tree的优越性,其实我觉得从一些问题来看,然后根据发现问题解决问题的思路来看,这样可能学习效果会更好,所以写了这篇文章,希望你能喜欢
问题列表
1:数据库中最常见的优化方式是什么? 加索引(相信这个大家都知道) 2:为什么加索引能优化慢查询? 。。。。。 3:哪些数据结构可以优化查询速度? 。。。。。 4:这些数据结构都可以优化查询速度,为何mysql会选择B+Tree 。。。。。
数据库查询过程
对于一般字段而言,mysql查询都是采用的全表扫描的方式来进行数据查询
WechatIMG111007.png
比如查找
select id from Test where age =1;
扫描第一次就能找到,如果查找
select id from Test where age =7;
可能扫描到第八次才能找到,如果数据非常多,多达几千万行,查找数据最极端的情况下可能需要查找到最后一次才能找到业务所需数据,所以是非常耗时的,我们就需要对数据查找过程进行优化,其实mysql索引就是一种数据结构,来优化查询速度的。方便我们查找数据(包括范围查找和指定查找)
索引的几种数据结构
在这里先给大家介绍一个网站 https://www.cs.usfca.edu/~galles/visualization/Algorithms.html 这个网站可以模拟各种数据结构的插入和查找的动画过程,这样更容易理解
二叉树
二叉树其实就是遵循了一个规律来排列,左小右大
二叉树
这样的话比比如我们查询9 通过两次比对就可以查询到
但是二叉树这种数据结构存在一些问题,比如数据是递增或者递减的顺序插入,二叉树就很容易形成单路链表
单路链表
如果遇到这种情况那么查找数据就普通的没有加索引的情况没什么区别了
红黑树
红黑树是一种自平衡二叉查找树,平衡二叉树的目的是为了减少二叉查找树层次,提高查找速度 比如依次插入 1到9,二叉树可能就和上图所展示的单路链表一样,红黑树可以自动旋转,减少层数
红黑树.png
具体过程可以在下面链接中插入看演示
https://www.cs.usfca.edu/~galles/visualization/AVLtree.html
散列表(hash)
散列表也为哈希表,又直接寻址改进而来。在哈希的方式下,一个元素k处于h(k)中,即利用哈希函数h,根据关键字k计算出槽的位置。函数h将关键字域映射到哈希表T[0...m-1]的槽位上
散列表
散列表的缺点 1)Hash 索引仅仅能满足”=”,”IN”和”<=>”查询,不能使用范围查询。 2)Hash 索引无法被用来避免数据的排序操作。 3)Hash 索引不能利用部分索引键查询。 4)Hash 索引在任何时候都不能避免表扫描。 5)Hash 索引遇到大量Hash值相等的情况后性能并不一定就会比B-Tree索引高。
B树
为了描述B-Tree,首先定义一条数据记录为一个二元组[key, data],key为记录的键值,对于不同数据记录,key是互不相同的;data为数据记录除key外的数据。那么B-Tree是满足下列条件的数据结构:
- d为大于1的一个正整数,称为B-Tree的度。
- h为一个正整数,称为B-Tree的高度。
- 每个非叶子节点由n-1个key和n个指针组成,其中d<=n<=2d。
- 每个叶子节点最少包含一个key和两个指针,最多包含2d-1个key和2d个指针,叶节点的指针均为null 。
- 所有叶节点具有相同的深度,等于树高h。
- key和指针互相间隔,节点两端是指针。
- 一个节点中的key从左到右非递减排列。
- 所有节点组成树结构。
- 每个指针要么为null,要么指向另外一个节点。
- 如果某个指针在节点node最左边且不为null,则其指向节点的所有key小于v(key1)v(key1),其中v(key1)v(key1)为node的第一个key的值。
- 如果某个指针在节点node最右边且不为null,则其指向节点的所有key大于v(keym)v(keym),其中v(keym)v(keym)为node的最后一个key的值。 如果某个指针在节点node的左右相邻key分别是keyikeyi和keyi+1keyi+1且不为null,则其指向节点的所有key小于v(keyi+1)v(keyi+1)且大于v(keyi)v(keyi)。
BTree
另外,由于插入删除新的数据记录会破坏B-Tree的性质,因此在插入删除时,需要对树进行一个分裂、合并、转移等操作以保持B-Tree性质,而且B-Tree也是不支持范围查找的,所以一般不采用
B+树
B+Tree其实和BTree类似,但是也有很多区别,我们先看图
image
B+Tree的特征
1:每一个父节点的元素都出现在了子节点中,是节点的最大或者最小元素
比如上面事例图中的元素8和15
image
需要注意的是,根结点的最大元素(这里是15),也是整个B+Tree的最大元素
2:由于父节点的元素都出现在了叶子节点,因此所有的叶子节点包含了全部元素信息,并且每一个叶子节点都带有指向下一个叶子节点的指针,形成了一个有序链表
B+Tree的叶子节点
3:在BTree中,每一个节点都包含了数据,但是在B+Tree中,只有叶子节点包含了数据,中间节点仅仅是索引,没有任何数据关联
image
注意:聚簇索引(Innodb)的叶子节点包含了整行数据和索引
innodb的索引如图所示
innodb索引.png
而非聚簇索引(myisam)的叶子节点只包含了索引,而不包含数据行本身 其实从数据库保存文件也能看出来,对于非聚簇索引(myisam)的表来说,数据库保存了三个文件 user_m.frm 表结构定义数据 user_m.MYD 表数据 user_m.MYI 索引文件 myisam索引如图所示
mysiam索引.png
而非聚簇索引(Innodb),数据库只保存了一个文件user_i.frm 所以说他的索引和数据是在一起的。 有一个非常形象的例子大家可以理解一下 非聚簇索引(myisam)相当于是一本书前面的目录,咱们可以根据目录去找到对应的内容 而聚簇索引(Innodb)相当于是书每一页下面的页码,页码和书本的内容是在一起的 B+Tree的优势
- 在单元素查询的时候,B+Tree会从根节点,逐层向下查找,最终找到要匹配的叶子节点,只需要三次磁盘IO就能找到,这个流程看起来和BTree差不多,其实并不是这样
- 首先B+树的非叶子节点不包含数据,所以同样的磁盘页可以容纳更多的节点元素,所以相同的数据情况下,B+Tree会显得更加“矮胖”,所以查询磁盘IO的次数会少
- 另外B+Tree的查询必须最后查找到叶子节点,而B-Tree只要找到了元素即可,不一定必须是得找到叶子节点,所以B-Tree的查询性能很不稳定,B+Tree的查询性能相对稳定很多。
- 对于范围查询来说B-Tree非常麻烦,如下图
image 比如我想查找大于3的数据 中序遍历到元素6: 中序遍历到元素8: 中序遍历到元素9: 中序遍历到元素11,遍历结束:
image 这种回环运算非常麻烦 像B+Tree就简单了很多 直接叶子节点链表指过去就行
image
最后总结一下B+Tree的特征和优势 B+树的特征:
- 有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。
- 所有的叶子结点中包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
- 所有的中间节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素。
B+树的优势:
- 单一节点存储更多的元素,使得查询的IO次数更少。
- 所有查询都要查找到叶子节点,查询性能稳定。
- 所有叶子节点形成有序链表,便于范围查询。
索引下推
符合索引(age,name) 在5.6之前 先根据name把所有数据查询出来,然后在server层进行age所有字段筛选 在5.6 之后 从存储引擎拉取数据的时候,会根据age 和name两个字段做筛选,将符合条件的数据拉回
计算数据库能存储多少数据的方法(大概计算)
首先每个索引页可以存储的大小是16kb,这个值可以查到
show global status like 'innodb_page_size'
计算方法如图
innodb索引.png
辅助索引
上面我们说的其实都是基于主键索引,如果非主键索引(辅助索引)查询数据是什么样的呢? ① 在辅助索引上检索name(这个name是例子,意思是代表非主键索引),到达其叶子节点获取对应的主键; ② 使用主键在主索引上再进行对应的检索操作 这个过程也被称为回表
覆盖索引.png
之所以这么做的原因是 保证数据一致性和节省存储空间,可以这么理解:商城系统订单表会存储一个用户ID作为关联外键,而不推荐存储完整的用户信息,因为当我们用户表中的信息(真实名称、手机号、地址)修改后,不需要再次维护订单表的用户数据,同时也节省了存储空间
select * from table where name = ‘123’; select id from table where name = ‘123’; 两个表查询的过程是不一样的 select * 需要回表 覆盖索引:在查询普通索引的时候,如果叶子节点保存的刚好是要查询的字段,此时叫覆盖索引
- 图论----同构图(详解)
- 基数排序与桶排序,计数排序【详解】
- SG函数和SG定理【详解】
- 密码学经典之生日悖论与生日攻击【详解】
- POJ 1659 Frogs' Neighborhood(可图性判定—Havel-Hakimi定理)【超详解】
- BZOJ 1192: [HNOI2006]鬼谷子的钱袋(新生必做的水题)
- 快速傅里叶变换(FFT)算法【详解】
- Codeforces Round #416 (Div. 2)(A,思维题,暴力,B,思维题,暴力)
- 作为程序员的你在外行人眼里是一个怎样的群体?
- 高斯消元法(Gauss Elimination)【超详解&模板】
- [快学Python3]读写Excel - openpyxl库
- HDU 2147 kiki's game(规律,博弈)
- HDU 1847 Good Luck in CET-4 Everybody!(规律,博弈)
- [network][udp]你不要偷偷发包,我跟你讲
- MySQL 教程
- MySQL 安装
- MySQL 管理与配置
- MySQL PHP 语法
- MySQL 连接
- MySQL 创建数据库
- MySQL 删除数据库
- MySQL 选择数据库
- MySQL 数据类型
- MySQL 创建数据表
- MySQL 删除数据表
- MySQL 插入数据
- MySQL 查询数据
- MySQL where 子句
- MySQL UPDATE 查询
- MySQL DELETE 语句
- MySQL LIKE 子句
- mysql order by
- Mysql Join的使用
- MySQL NULL 值处理
- MySQL 正则表达式
- MySQL 事务
- MySQL ALTER命令
- MySQL 索引
- MySQL 临时表
- MySQL 复制表
- 查看MySQL 元数据
- MySQL 序列 AUTO_INCREMENT
- MySQL 处理重复数据
- MySQL 及 SQL 注入
- MySQL 导出数据
- MySQL 导入数据
- MYSQL 函数大全
- MySQL Group By 实例讲解
- MySQL Max()函数实例讲解
- mysql count函数实例
- MYSQL UNION和UNION ALL实例
- MySQL IN 用法
- MySQL between and 实例讲解
- 前端系列 |原生JS和jQuery循环遍历函数
- 工具系列 | H5如何实现人脸识别
- 形式化分析工具(六):HLPSL Tutorial(Example3)
- CODING DevOps + Nginx-ingress 实现自动化灰度发布
- TF入门04-TF实现Word2Vec
- TF入门03-实现线性回归&逻辑回归
- TF入门02-TensorFlow Ops
- 前端|利用Verify插件实现前端图像验证码
- 3分钟短文 | PHP位运算和逻辑运算,一个符号写两遍这么简单?
- 打卡群刷题总结0721——搜索二维矩阵
- NumPy进阶80题完整版|附Notebook版本下载
- 【LeetCode每日一题】21. Merge Two Sorted Lists
- 计算广告笔记06-程序化交易广告
- TF入门05-实验过程管理
- [LeetCode]709. To Lower Case