MySQL普通索引和唯一索引的深入讲解

场景

1、维护一个市民系统,有一个字段为身份证号

2、业务代码能保证不会写入两个重复的身份证号(如果业务无法保证,可以依赖数据库的唯一索引来进行约束)

3、常用SQL查询语句:SELECT name FROM CUser WHERE id_card = 'XXX'

4、建立索引

  • 身份证号比较大,不建议设置为主键
  • 从性能角度出发,选择普通索引还是唯一索引?

假设字段k上的值都不重复

查询过程

1、查询语句:SELECT id FROM T WHERE k=5

2、查询过程

  • 通过B+树从树根开始,按层搜索到叶子节点,即上图中右下角的数据页
  • 在数据页内部通过二分法来定位具体的记录

3、针对普通索引

  • 查找满足条件的第一个记录(5,500),然后查找下一个记录,直到找到第一个不满足k=5的记录

4、针对唯一索引

  • 由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止继续查找

性能差异

1、性能差异:微乎其微

2、InnoDB的数据是按照数据页为单位进行读写的,默认为16KB

3、当需要读取一条记录时,并不是将这个记录本身从磁盘读出来,而是以数据页为单位进行读取的

4、当找到k=5的记录时,它所在的数据页都已经在内存里了

5、对于普通索引而言,只需要多一次指针寻找和多一次计算 – CPU消耗很低

  • 如果k=5这个记录恰好是所在数据页的最后一个记录,那么如果要取下一个记录,就需要读取下一个数据页
  • 概率很低:对于整型字段索引,一个数据页(16KB,compact格式)可以存放大概745个值

change buffer

1、当需要更新一个数据页时,如果数据页在内存中就直接更新

2、如果这个数据页不在内存中,在不影响数据一致性的前提下

  • InnoDB会将这些更新操作缓存在change buffer
  • 不需要从磁盘读入这个数据页(随机读)
  • 在下次查询需要访问这个数据页的时候,将数据页读入内存
    然后执行change buffer中与这个数据页有关的操作(merge)

3、change buffer是可以持久化的数据,在内存中有拷贝,也会被写入到磁盘上

4、将更新操作先记录在channge buffer,减少随机读磁盘,提升语句的执行速度

5、另外数据页读入内存需要占用buffer pool,使用channge buffer能避免占用内存,提高内存利用率

6、change buffer用到是buffer pool里的内存,不能无限增大,控制参数innodb_change_buffer_max_size

# 默认25,最大50
mysql> SHOW VARIABLES LIKE '%innodb_change_buffer_max_size%';
+-------------------------------+-------+
| Variable_name   | Value |
+-------------------------------+-------+
| innodb_change_buffer_max_size | 25 |
+-------------------------------+-------+

merge

1、merge:将change buffer中的操作应用到原数据页

2、merge的执行过程

  • 从磁盘读入数据页到内存(老版本的数据页)
  • 从change buffer里找出这个数据页的change buffer记录(可能多个)
    然后依次执行,得到新版本的数据页
  • 写入redolog,包含内容:数据页的表更+change buffer的变更

3、merge执行完后,内存中的数据页和change buffer所对应的磁盘页都还没修改,属于脏页

  • 通过其他机制,脏页会被刷新到对应的物理磁盘页

4、触发时机

  • 访问这个数据页
  • 系统后台线程定期merge
  • 数据库正常关闭

使用条件

1、对于唯一索引来说,所有的更新操作需要先判断这个操作是否违反唯一性约束

2、唯一索引的更新无法使用change buffer,只有普通索引可以使用change buffer

  • 主键也是无法使用change buffer的
  • 例如要插入(4,400),必须先判断表中是否存在k=4的记录,这个判断的前提是将数据页读入内存
  • 既然数据页已经读入到了内存,直接更新内存中的数据页就好,无需再写change buffer

使用场景

1、一个数据页在merge之前,change buffer记录关于这个数据页的变更越多,收益越大

2、对于写多读少的业务,页面在写完后马上被访问的概率极低,此时change buffer的使用效果最好

  • 例如账单类、日志类的系统

3、如果一个业务的更新模式为:写入之后马上会做查询

  • 虽然更新操作被记录到change buffer,但之后马上查询,又会从磁盘读取数据页,触发merge过程
  • 没有减少随机读,反而增加了维护change buffer的代价

更新过程

插入(4,400)

目标页在内存中

  • 对于唯一索引来说,找到3~5之间的位置,判断没有冲突,插入这个值
  • 对于普通索引来说,找到3~5之间的位置,插入这个值
  • 性能差异:微乎其微

目标页不在内存中

1、对于唯一索引来说,需要将数据页读入内存,判断没有冲突,插入这个值

  • 磁盘随机读,成本很高

对于普通索引来说,将更新操作记录在change buffer即可

  • 减少了磁盘随机读,性能提升明显

索引选择

1、普通索引与唯一索引,在查询性能上并没有太大差异,主要考虑的是更新性能,推荐选择普通索引

2、建议关闭change buffer的场景

  • 如果所有的更新后面,都伴随着对这个记录的查询
  • 控制参数innodb_change_buffering
mysql> SHOW VARIABLES LIKE '%innodb_change_buffering%';
+-------------------------+-------+
| Variable_name   | Value |
+-------------------------+-------+
| innodb_change_buffering | all |
+-------------------------+-------+

# Valid Values (>= 5.5.4)
none / inserts / deletes / changes / purges / all

# Valid Values (<= 5.5.3)
none / inserts

# change buffer的前身是insert buffer,只能对insert操作进行优化

change buffer + redolog

更新过程

当前k树的状态:找到对应的位置后,k1所在的数据页Page 1在内存中,k2所在的数据页Page 2不在内存中

INSERT INTO t(id,k) VALUES (id1,k1),(id2,k2);

# 内存:buffer pool
# redolog:ib_logfileX
# 数据表空间:t.ibd
# 系统表空间:ibdata1

1、Page 1在内存中,直接更新内存

2、Page 2不在内存中,在changer buffer中记录:add (id2,k2) to Page 2

3、上述两个动作计入redolog(磁盘顺序写)

4、至此事务完成,执行更新语句的成本很低

  • 写两次内存+一次磁盘

5、由于在事务提交时,会把change buffer的操作记录也记录到redolog

  • 因此可以在崩溃恢复时,恢复change buffer

虚线为后台操作,不影响更新操作的响应时间

读过程

假设:读语句发生在更新语句后不久,内存中的数据都还在,与系统表空间(ibdata1)和redolog(ib_logfileX)无关

SELECT * FROM t WHERE k IN (k1,k2);

1、读Page 1,直接从内存返回(此时Page 1有可能还是脏页,并未真正落盘)

2、读Page 2,通过磁盘随机读将数据页读入内存,然后应用change buffer里面的操作日志(merge)

  • 生成一个正确的版本并返回

提升更新性能

1、redolog:节省随机写磁盘的IO消耗(顺序写)

2、change buffer:节省随机读磁盘的IO消耗

参考资料

《MySQL实战45讲》

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对我们的支持。

(0)

相关推荐

  • mysql下普通索引和唯一索引的效率对比

    今天在我的虚拟机中布置了环境,测试抓图如下: 抓的这几个都是第一次执行的,刷了几次后,取平均值,效率大致相同,而且如果在一个列上同时建唯一索引和普通索引的话,mysql会自动选择唯一索引. 谷歌一下: 唯一索引和普通索引使用的结构都是B-tree,执行时间复杂度都是O(log n). 补充下概念: 1.普通索引 普通索引(由关键字KEY或INDEX定义的索引)的唯一任务是加快对数据的访问速度.因此,应该只为那些最经常出现在查询条件(WHEREcolumn=)或排序条件(ORDERBYcolumn

  • MySQL批量插入遇上唯一索引避免方法

    一.背景 以前使用SQL Server进行表分区的时候就碰到很多关于唯一索引的问题:Step8:SQL Server 当表分区遇上唯一约束,没想到在MySQL的分区中一样会遇到这样的问题:MySQL表分区实战. 今天我们来了解MySQL唯一索引的一些知识:包括如何创建,如何批量插入,还有一些技巧上SQL: 这些问题的根源在什么地方?有什么共同点?MySQL中也有分区对齐的概念?唯一索引是在很多系统中都会出现的要求,有什么办法可以避免?它对性能的影响有多大? 二.过程 (一) 导入差异数据,忽略重

  • MySQL中的唯一索引的简单学习教程

    mysql 唯一索引UNIQUE一般用于不重复数据字段了我们经常会在数据表中的id设置为唯一索引UNIQUE,下面我来介绍如何在mysql中使用唯一索引UNIQUE吧. 创建唯一索引的目的不是为了提高访问速度,而只是为了避免数据出现重复.唯一索引可以有多个但索引列的值必须唯一,索引列的值允许有空值.如果能确定某个数据列将只包含彼此各不相同的值,在为这个数据列创建索引的时候就应该使用关键字UNIQUE. 把它定义为一个唯一索引. 创建表时直接设置: DROP TABLE IF EXISTS `st

  • MySQL建立唯一索引实现插入重复自动更新

    前言 在我们往数据库插入数据的时候,需要判断某个字段是否存在,如果存在则执行更新操作,如果不存在则执行插入操作,如果每次首先查询一次判断是否存在,再执行插入或者更新操作,就十分不方便.下面给大家分享个方法,方便大家实现这一功能,下面来一起看看吧. ON DUPLICATE KEY UPDATE 这个时候可以给这个字段(或者几个字段)建立唯一索引,同时使用以下 sql 语句进行插入或更新操作: INSERT INTO table (id, user_id, token) VALUES (NULL,

  • mysql 中存在null和空时创建唯一索引的方法

    好多情况下数据库默认值都有null,但是经过程序处理很多时候会出现,数据库值为空而不是null的情况.此时创建唯一索引时要注意了,此时数据库会把空作为多个重复值,而创建索引失败,示例如下: 步骤1: mysql> select phone ,count(1) from User group by phone; +-----------------+----------+ | phone | count(1) | +-----------------+----------+ | NULL | 70

  • MySQL批量插入和唯一索引问题的解决方法

    MySQL批量插入问题 在开发项目时,因为有一些旧系统的基础数据需要提前导入,所以我在导入时做了批量导入操作 ,但是因为MySQL中的一次可接受的SQL语句大小受限制所以我每次批量虽然只有500条,但依然无法插入,这个时候代码报错如下: nested exception is com.mysql.jdbc.PacketTooBigException: Packet for query is too large (5677854 > 1048576). You can change this va

  • MySQL 死锁套路:唯一索引 S 锁与 X 锁的爱恨情仇

    在初学者从源码理解MySQL死锁问题中介绍了使用调试 MySQL  源码的方式来查看死锁的过程,这篇文章来讲讲一个常见的案例. 毫不夸张的说,有一半以上的死锁问题由唯一索引贡献,后面介绍的很多死锁的问题都跟唯一索引有关.这次我们讲一段唯一索引 S 锁与 X 锁的爱恨情仇 我们来看一个简化过的例子 # 构造数据 CREATE TABLE `t1` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(10), `level` int(11),

  • MySQL死锁套路之唯一索引下批量插入顺序不一致

    前言 死锁的本质是资源竞争,批量插入如果顺序不一致很容易导致死锁,我们来分析一下这个情况.为了方便演示,把批量插入改写为了多条 insert. 先来做几个小实验,简化的表结构如下 CREATE TABLE `t1` ( `id` int(11) NOT NULL AUTO_INCREMENT, `a` varchar(5), `b` varchar(5), PRIMARY KEY (`id`), UNIQUE KEY `uk_name` (`a`,`b`) ); 实验1: 在记录不存在的情况下,

  • MySQL普通索引和唯一索引的深入讲解

    场景 1.维护一个市民系统,有一个字段为身份证号 2.业务代码能保证不会写入两个重复的身份证号(如果业务无法保证,可以依赖数据库的唯一索引来进行约束) 3.常用SQL查询语句:SELECT name FROM CUser WHERE id_card = 'XXX' 4.建立索引 身份证号比较大,不建议设置为主键 从性能角度出发,选择普通索引还是唯一索引? 假设字段k上的值都不重复 查询过程 1.查询语句:SELECT id FROM T WHERE k=5 2.查询过程 通过B+树从树根开始,按

  • Mysql普通索引与唯一索引的选择详析

    假设一个用户管理系统,每个人注册都有一个唯一的手机号,而且业务代码已经保证了不会写入两个重复的手机号.如果用户管理系统需要按照手机号查姓名,就会执行类似这样的 SQL 语句: select name from users where mobile = '15202124529'; 通常会考虑在 mobile 字段上建索引.由于手机号字段相对较大,通常基本不会把手机号当做主键,那么现在就有两个选择: 1.  给 id_card 字段创建唯一索引 2.  创建一个普通索引 如果业务代码已经保证了不会

  • MySQL 普通索引和唯一索引的区别详解

    1 概念区分 普通索引和唯一索引 普通索引可重复,唯一索引和主键一样不能重复. 唯一索引可作为数据的一个合法验证手段,例如学生表的身份证号码字段,我们人为规定该字段不得重复,那么就使用唯一索引.(一般设置学号字段为主键) 主键和唯一索引 主键保证数据库里面的每一行都是唯一的,比如身份证,学号等,在表中要求唯一,不重复.唯一索引的作用跟主键的作用一样. 不同的是,在一张表里面只能有一个主键,主键不能为空,唯一索引可以有多个,唯一索引可以有一条记录为空,即保证跟别人不一样就行. 比如学生表,在学校里

  • mysql error 1071: 创建唯一索引时字段长度限制的问题

    目录 一.先描述一下问题吧 二.显而易见 三.问题和解决方案分析 一.先描述一下问题吧 如下创建表时候报错了 CREATE TABLE `xxx` (   `id` bigint(20) NOT NULL AUTO_INCREMENT,   `sys_code` varchar(255) DEFAULT NULL COMMENT '系统编码',   `module_name` varchar(1000) DEFAULT NULL COMMENT '模块名',   `call_num` bigin

  • MongoDB性能篇之创建索引,组合索引,唯一索引,删除索引和explain执行计划

    一.索引 MongoDB 提供了多样性的索引支持,索引信息被保存在system.indexes 中,且默认总是为_id创建索引,它的索引使用基本和MySQL 等关系型数据库一样.其实可以这样说说,索引是凌驾于数据存储系统之上的另一层系统,所以各种结构迥异的存储都有相同或相似的索引实现及使用接口并不足为 奇. 1.基础索引 在字段age 上创建索引,1(升序);-1(降序): db.users.ensureIndex({age:1}) _id 是创建表的时候自动创建的索引,此索引是不能够删除的.当

随机推荐