MySQL优化之Index Merge的使用

目录
  • 1.前言
  • 2.IndexMerge
    • 2.1Intersection
    • 2.2Union
    • 2.3SortUnion
    • 2.4SortIntersection
  • 3.总结

1. 前言

先问大家一个问题,在不考虑多表联查这种复杂的查询场景下,一个简单的单表查询,MySQL可以同时利用几个索引? ​

当初我学习MySQL的时候,天真的以为只要把WHERE条件涉及到的列全部加上索引,就可以提升查询速度,这个想法其实大错特错。因为一般情况下,单表查询MySQL只能利用一个索引,比如下面这个查询,假设id是主键,a和b分别创建了索引,别天真的以为idx_aidx_b都能发挥作用,其实不是的。

SELECT id,a,b FROM T WHERE a>100 AND b>200;

因为idx_a索引只存储了列a和id的值,无法判断b>200条件是否成立,所以只能拿着id去回表查询。 同样idx_b索引只存储了列b和id的值,无法判断a>100条件是否成立,也只能拿着id去回表查询。 可以看到,最大的开销其实是回表操作,通过二级索引匹配到的数据越少,回表的开销也就越低。所以理论上来说,a>100b>200分别符合这两个条件的记录数越少,MySQL就会使用哪个索引。MySQL是如何判断符合这些条件的记录数量的呢?不也得老老实实的扫描全表吗?MySQL采用预估的方式,通过表的统计数据或访问表中少量的数据来进行预估,并分别计算使用这两个索引进行查询各自的成本是多少,最终选择执行成本更低的索引方案。关于MySQL如何预估执行成本,不在本篇文章的讨论范围内,先跳过。 ​

我们假设最终MySQL使用idx_a索引,那么这个查询过程其实是这样的:

  • InnoDB从idx_aB+树中获取到第一条a>100的记录,拿记录里的id值回表查询。
  • 回表查询获取到完整的用户记录,判断b>200是否成立,成立则返回给客户端,否则丢弃该记录。
  • InnoDB继续从idx_aB+树中获取到下一条a>100的记录,重复前面的过程。

建立了这么多索引,每次查询只使用一个,太可惜了不是嘛。能不能同时利用多个索引来完成查询呢?可以的,但是条件有些严苛,这就是我们今天要介绍的索引合并Index Merge。

2. Index Merge

MySQL将这种使用多个索引来完成一次查询的执行方法称为 索引合并「index merge」。如何才能知道我们写的SQL语句使用了索引合并呢?通过EXPLAIN分析一下就知道了,如果使用了索引合并,对应的type列显示的值应该是index_mergekey列显示用的到所有索引名称,Extra列会显示具体使用了哪种类型的索引合并。 如下所示,同时使用了idx_aidx_b两个索引完成查询,且索引合并类型为Intersection

table type key Extra
T index_merge idx_a,idx_b Using intersect(idx_a,idx_b); Using where; Using index

什么?索引合并还分类型?是的,MySQL目前共支持三种类型的索引合并,分别是:

索引合并类型 说明
Intersection 对多个二级索引里符合条件的主键值取交集合并
Union 对多个二级索引里符合条件的主键值去重后取并集合并
Sort Union 对多个二级索引里符合条件的主键值去重并排序后,再取并集合并

我们使用一个具体的例子,来分别演示下三种索引合并。假设有表T如下,id是主键,列a和列b分别创建索引。

CREATE TABLE T(
    `id` INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
    `a` INT NOT NULL,
    `b` CHAR(1) DEFAULT NULL,
    KEY `idx_a` (a) USING BTREE,
    KEY `idx_b` (b) USING BTREE
)ENGINE=InnoDB AUTO_INCREMENT=1;

大家可以写个存储过程,向表中批量插入记录,我这里贴一下代码,写的很简陋。

CREATE PROCEDURE insertT()
BEGIN
    DECLARE i INT DEFAULT 0;
    START TRANSACTION;
        WHILE i<=10000 do
            INSERT INTO T (a, b) VALUES (i,CHAR(rand()*(90-65)+65));
            SET i=i+1;
        END WHILE;
    COMMIT;
END;
call insertT();

列a和列b均是普通索引,值是允许重复的,大家可以多调用几次存储,最终的数据就是:a的值在一万以内重复,b的值在A~Z之间重复,主键保持递增。下面我们基于这张表的数据来演示。

2.1 Intersection

SELECT * FROM T WHERE a=1 AND b='A';

针对这个查询,目前我们知道它可以有以下三种查询方式:

  • 全表扫描,判断两个条件是否匹配。
  • 利用idx_a索引将获取到id回表查询再判断条件b是否达成。
  • 利用idx_b索引将获取到id回表查询再判断条件a是否达成。

有了Intersection索引合并,MySQL其实还可以有第四种查询方式,查询过程是这样的:

  • 利用idx_a索引将获取到的id集合记作id_setA
  • 利用idx_b索引将获取到的id集合记作id_setB
  • id_setAid_setB取交集,记作id_set
  • id_set回表查询,将结果返回给客户端。

这个过程描述的其实是有问题的,但是大概意思是对的,主要是帮助大家理解。对id取交集的过程,并不是这样的,本质上MySQL并不会存储这些id集合,因为数据量一大是很占用内存的,这个我们待会说。 ​

综上所述,这种通过从多个索引中扫描到的记录的主键值取交集后再回表查询的方式,就是Intersection索引合并。EXPLAIN分析结果如下:

mysql> EXPLAIN SELECT * FROM T WHERE a=1 AND b='A';
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+--------------------------------------------------------+
| id | select_type | table | partitions | type        | possible_keys | key         | key_len | ref  | rows | filtered | Extra                                                  |
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+--------------------------------------------------------+
|  1 | SIMPLE      | T     | NULL       | index_merge | idx_a,idx_b   | idx_a,idx_b | 4,4     | NULL |    1 |   100.00 | Using intersect(idx_a,idx_b); Using where; Using index |
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+--------------------------------------------------------+

需要注意的是,使用Intersection索引合并是有条件的。如果使用到的索引都是二级索引的话,则要求通过二级索引取出的记录是按照主键排好序的。为什么会有这个要求呢?主要是有以下两个好处:

  • 对两个有序集合取交集更简单。
  • 主键有序的情况下,回表将不再是单纯的随机IO,回表的效率更高。

很显然,我们这个查询是能利用Intersection索引合并的。idx_a索引中是先根据a排序再根据id排序的,a=1的情况下,取出的记录是按照id排好序的。idx_b索引中是先根据b排序再根据id排序的,b='A'的情况下,取出的记录也是按照id排好序的。所以是符合要求的。 ​

最后,我们看一下MySQL从两个集合中取交集的过程。假设idx_a过滤出的id是[1,3,5]idx_b过滤出的id集合是[2,3,4],取交集的过程其实是这样的:

  • idx_a取出第一条记录,id值是1。再从idx_b取出第一条记录,id值是2,因为1<2所以id为1的那条记录直接丢弃。
  • idx_a取出第二条记录,id值是3,因为2<3,所以id为2的那条记录直接丢弃。
  • idx_b取出第二条记录,id值是3,因为3=3,所以拿3去回表查询,结果返回给客户端,同时id为3的两条记录也直接丢弃。
  • idx_a取出第三条记录,id值是5。从idx_b取出第三条记录,id值是4。因为4<5所以id为4的记录被丢弃,又因为双方都没有记录了,id为5的记录也被丢弃,交集过程结束。

通过上述过程,现在你应该很清楚为啥MySQL要求二级索引返回的记录必须根据主键排好序了吧,如此一来,整个求交集的过程将变得非常简单,MySQL也无需使用额外的内存空间来保存这些id集合。

2.2 Union

SELECT * FROM T WHERE a=1 OR b='A';

针对这个查询,我们是无法单独使用idx_aidx_b索引来完成的,因为它们的条件关系是OR,目前我们已知的查询方式就一种:

  • 全表扫描,判断两者条件满足其一就返回给客户端。​

这种方式很明显太笨了,有了Union索引合并,MySQL其实可以有第二种查询方式,过程是这样的:

  • 利用idx_a索引将获取到的id集合记作id_setA
  • 利用idx_b索引将获取到的id集合记作id_setB
  • id_setAid_setB取并集,记作id_set
  • id_set回表查询,将结果返回给客户端。

这个过程和Intersection其实很像,只是交集换成了并集而已,所以很好理解。同样的,取并集的过程也并非如此,这里只是方便大家理解。 ​

综上所述,这种通过从多个索引中扫描到的记录的主键值取并集后再回表查询的方式,就是Union索引合并。EXPLAIN分析结果如下:

mysql> EXPLAIN SELECT * FROM T WHERE a=1 OR b='A';
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+---------------------------------------+
| id | select_type | table | partitions | type        | possible_keys | key         | key_len | ref  | rows | filtered | Extra                                 |
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+---------------------------------------+
|  1 | SIMPLE      | T     | NULL       | index_merge | idx_a,idx_b   | idx_a,idx_b | 4,4     | NULL | 1016 |   100.00 | Using union(idx_a,idx_b); Using where |
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+---------------------------------------+

同样,使用Union索引合并也是有条件的。如果使用到的索引都是二级索引的话,则要求通过二级索引取出的记录是按照主键排好序的。为什么会有这个要求呢?主要是有以下两个好处:

  • 对两个有序集合取并集更简单。
  • 主键有序的情况下,回表将不再是单纯的随机IO,回表的效率更高。

至于为啥这个查询可以使用Union索引,其实上面已经说过了,这里不再赘述。

Union索引合并取并集的过程,和Intersection也很像。MySQL依然不需要使用额外的内存存储这些id集合,大家可以按照上述流程自己走一遍,这里不再赘述。

2.3 Sort Union

SELECT * FROM T WHERE a=1 OR b>='Z';

针对这个查询,是不能使用Union索引合并的,因为它不满足条件:从idx_b二级索引取出的记录并非是按照主键排序的。所以目前我们已知的查询方式就一种:

  • 全表扫描,判断两者条件满足其一就返回给客户端。

Intersection和Union使用的条件很严苛,必须要求二级索引取出的记录是按照主键排好序的,针对这个查询无法使用。但是这两个条件a=1b>='Z'很大概率能过滤掉大部分记录,是可以提升查询效率的,怎么办呢?

MySQL很想利用这两个索引,于是想了个办法。既然二级索引自然取出来的主键不是排好序的,那我就先放到内存里自己排好序再使用Union的方式去查询。整个过程是这样的:

  • 先从idx_b索引中取出所有符合条件记录,提取id集合先去重再排序,记作id_setB
  • 此时id_setB已经是有序的了,从idx_a中依次取出记录的id值,走正常取并集的过程即可。
  • 对最终的id并集回表,将结果返回给客户端。

综上所述,这种通过从多个索引中扫描到的记录的主键值排好序后,再按照Union索引合并的方式执行查询的方式,就是Sort Union索引合并。相较于Union,其实就是多了一个对主键手动排序的过程。EXPLAIN分析结果如下:

mysql> EXPLAIN SELECT * FROM T WHERE a=1 OR b>='Z';
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+--------------------------------------------+
| id | select_type | table | partitions | type        | possible_keys | key         | key_len | ref  | rows | filtered | Extra                                      |
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+--------------------------------------------+
|  1 | SIMPLE      | T     | NULL       | index_merge | idx_a,idx_b   | idx_a,idx_b | 4,4     | NULL |  975 |   100.00 | Using sort_union(idx_a,idx_b); Using where |
+----+-------------+-------+------------+-------------+---------------+-------------+---------+------+------+----------+--------------------------------------------+

2.4 Sort Intersection

很遗憾,目前MySQL并不支持所谓的“Sort Intersection”索引合并的方式。大家肯定很好奇,既然有Sort Union,为啥没有Sort Intersection呢?不就是先手动排序再取交集吗? ​

没有查找到相关资料解释为啥不支持,我可以说下我的理解。大家可以想一下,交集的本质是什么?一般情况下是将两个很大的集合,变成一个较小的集合。而并集的本质又是什么呢?一般情况下是将两个较小的集合,变成一个较大的集合。 ​

大家明白了吗?对两个较小的集合在内存中排序,开销可以接受。但是对两个较大的集合在内存中完成排序,这个操作本身的开销可能比回表的开销都大了,那MySQL还不如只利用「单索引+回表」的方式查询呢。

3. 总结

不要天真的给WHERE条件涉及到的列都加上索引,通常情况下这只会让结果更糟。因为一般情况下,对于单表查询MySQL一次只能利用一个索引。但是,如果条件允许,MySQL也可以利用「Index Merge」的方式利用多个索引完成一次查询。MySQL支持三种索引合并的方式,分别是Intersection、Union、Sort Union,其实就是利用二级索引中的主键值取交集、并集后再回表查询。其中Intersection和Union使用条件比较严苛,要求从二级索引取出的记录必须是根据主键排好序的。有时候条件不满足,但是MySQL又很想使用Index Merge,就会尝试自己在内存中手动排序,这就是Sort Union,它只比Union多了个手动排序的过程。至于为啥没有Sort Intersection,作者说了一点自己的思考,不一定对,大家也可以思考一下。

到此这篇关于MySQL优化之Index Merge的使用的文章就介绍到这了,更多相关MySQL Index Merge内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • MySQL里Create Index 能否创建主键 Primary Key

    MySQL里Create Index 能否创建主键 Primary Key? 答案: 不能,必须用 Alter table 创建. MySQL一个索引列最大允许的有效长度,不是列的所有数据都被索引的 MyISAM 是 1000字节 InnoDB 是 767 字节 注意这里是字节.

  • Mysql中key和index的区别点整理

    我们先来看下代码: ALTER TABLE reportblockdetail ADD KEY taskcode (taskcode) ALTER TABLE reportblockdetail DROP KEY taskcode 嗯这确实是比较容易混淆的地方. 在我们使用MySQL中可能压根不会注意这个问题,因为大多数情况下他们展示出来的效果都差不多,但是还是不能将他们划等号(至少理论上是这样) 索引(index)和约束(key)的区别主要在于二者的出发点不同,索引(index)负责维护表的查

  • MySQL Index Condition Pushdown(ICP)性能优化方法实例

    一 概念介绍 Index Condition Pushdown (ICP)是MySQL 5.6 版本中的新特性,是一种在存储引擎层使用索引过滤数据的一种优化方式. a 当关闭ICP时,index 仅仅是data access 的一种访问方式,存储引擎通过索引回表获取的数据会传递到MySQL Server 层进行where条件过滤. b 当打开ICP时,如果部分where条件能使用索引中的字段,MySQL Server 会把这部分下推到引擎层,可以利用index过滤的where条件在存储引擎层进行

  • mysql 松散的索引扫描(Loose index scan)

    优化Group By最有效的办法是当可以直接使用索引来完全获取需要group的字段.使用这个访问方法时,MySQL使用对关键字排序的索引的类型(比如BTREE索引).这使得索引中用于group的字段不必完全涵盖WHERE条件中索引对应的key.由于只包含索引中关键字的一部分,因此称为松散的索引扫描. 历史上MySQL不能做松散的索引扫描,这种方式可以扫描索引的非连续部分,假定下面的例子中,在列(a,b)上有一索引,要运行下面的查询: mysql> SELECT - FROM tbl WHERE

  • MySQL 启动报错:File ./mysql-bin.index not found (Errcode: 13)

    Linux下安装初始化完MySQL数据库之后,使用mysqld_safe启动mysql数据库,如下发现,启动失败 [root@SVNServer bin]# ./mysqld_safe –user=mysql& 或 [root@SVNServer bin]# /etc/init.d/mysqld start Starting MySQL. ERROR! The server quit without updating PID file (/data/mysql/AY140208160934776

  • MySQL 创建索引(Create Index)的方法和语法结构及例子

    CREATE INDEX Syntax CREATE [UNIQUE|FULLTEXT|SPATIAL] INDEX index_name [index_type] ON tbl_name (index_col_name,...) [index_type] index_col_name: col_name [(length)] [ASC | DESC] index_type: USING {BTREE | HASH | RTREE} 复制代码 代码如下: -- 创建无索引的表格 create t

  • MySQL优化之Index Merge的使用

    目录 1.前言 2.IndexMerge 2.1Intersection 2.2Union 2.3SortUnion 2.4SortIntersection 3.总结 1. 前言 先问大家一个问题,在不考虑多表联查这种复杂的查询场景下,一个简单的单表查询,MySQL可以同时利用几个索引? ​ 当初我学习MySQL的时候,天真的以为只要把WHERE条件涉及到的列全部加上索引,就可以提升查询速度,这个想法其实大错特错.因为一般情况下,单表查询MySQL只能利用一个索引,比如下面这个查询,假设id是主

  • MySQL 优化 index merge引起的死锁分析

    目录 背景 死锁日志 表结构 执行计划 为什么会用 index_merge(索引合并) 解决方案 一.从代码层面 二.从MySQL层面 背景 生产环境出现死锁流水,通过查看死锁日志,看到造成死锁的是两条一样的update语句(只有where条件中的值不同), 如下: UPDATE test_table SET `status` = 1 WHERE `trans_id` = 'xxx1' AND `status` = 0; UPDATE test_table SET `status` = 1 WH

  • 探究MySQL优化器对索引和JOIN顺序的选择

    本文通过一个案例来看看MySQL优化器如何选择索引和JOIN顺序.表结构和数据准备参考本文最后部分"测试环境".这里主要介绍MySQL优化器的主要执行流程,而不是介绍一个优化器的各个组件(这是另一个话题). 我们知道,MySQL优化器只有两个自由度:顺序选择:单表访问方式:这里将详细剖析下面的SQL,看看MySQL优化器如何做出每一步的选择. explain select * from employee as A,department as B where A.LastName = '

  • mysql优化利器之explain使用介绍

    一.语法 {EXPLAIN | DESCRIBE | DESC} tbl_name [col_name | wild] {EXPLAIN | DESCRIBE | DESC} [explain_type] SELECT select_options explain_type: {EXTENDED | PARTITIONS} 二.数据库准备 表一: DROP TABLE IF EXISTS `products`; SET @saved_cs_client = @@character_set_cli

  • PHP数据库编程之MySQL优化策略概述

    本文简单讲述了PHP数据库编程之MySQL优化策略.分享给大家供大家参考,具体如下: 前些天看到一篇文章说到PHP的瓶颈很多情况下不在PHP自身,而在于数据库.我们都知道,PHP开发中,数据的增删改查是核心.为了提升PHP的运行效率,程序员不光需要写出逻辑清晰,效率很高的代码,还要能对query语句进行优化.虽然我们对数据库的读取写入速度上却是无能为力,但在一些数据库类扩展像memcache.mongodb.redis这样的数据存储服务器的帮助下,PHP也能达到更快的存取速度,所以了解学习这些扩

  • 通过MySQL优化Discuz!的热帖翻页的技巧

    写在前面:discuz!作为首屈一指的社区系统,为广大站长提供了一站式网站解决方案,而且是开源的(虽然部分代码是加密的),它为这个垂直领域的行业发展作出了巨大贡献.尽管如此,discuz!系统源码中,还是或多或少有些坑.其中最著名的就是默认采用MyISAM引擎,以及基于MyISAM引擎的抢楼功能,session表采用memory引擎等,可以参考后面几篇历史文章.本次我们要说说discuz!在应对热们帖子翻页逻辑功能中的另一个问题. 在我们的环境中,使用的是 MySQL-5.6.6 版本. 在查看

  • 记一次因线上mysql优化器误判引起慢查询事件

    前言: 收到疯狂的慢查询及请求超时报警,通过metrics分析出来自mysql请求的异常,cli -> show proceslist 看到很多慢查询. 先前该sql是没有的,后面因为数据量的增长才出现了这问题. 虽然feeds表大到一个亿,但因为feeds流信息有近期热的特征,所以不是因为 innodb_buffer_pool_size 低效引起的io频繁. 后来经过进一步explain执行计划分析得出了原因,mysql查询优化器选择了他认为高效的索引. mysql查询优化器大多数情况是靠谱的

  • MySQL优化之缓存优化(续)

    MySQL 内部处处皆缓存,等什么时候看了MySQL的源码,再来详细的分析缓存的是如何利用的.这部分主要将各种显式的缓存优化: 查询缓存优化 结果集缓存 排序缓存 join 连接缓存 表缓存Cache 与表结构定义缓存Cache 表扫描缓存buffer MyISAM索引缓存buffer 日志缓存 预读机制 延迟表与临时表 1.查询缓存优化 查询缓存不仅将查询语句结构缓存起来,还将查询结果缓存起来.一段时间内,如果是同样的SQL,则直接从缓存中读取结果,提高查找数据的效率.但当缓存中的数据与硬盘中

  • 数据库管理中19个MySQL优化方法

    MySQL数据库优化以后,不仅可以减少数据库的冗余,而且还可以让数据库运行速度都有所改变,下面使我们整理的19条非常好的MySQL数据库优化方法,参考一下. 声明一下:下面的优化方案都是基于 " Mysql-索引-BTree类型 " 的 一.EXPLAIN 做MySQL优化,我们要善用 EXPLAIN 查看SQL执行计划. 下面来个简单的示例,标注(1,2,3,4,5)我们要重点关注的数据 type列,连接类型.一个好的sql语句至少要达到range级别.杜绝出现all级别 key列,

  • Mysql优化order by语句的方法详解

    本篇文章我们将了解ORDER BY语句的优化,在此之前,你需要对索引有基本的了解,不了解的老少爷们可以先看一下我之前写过的索引相关文章.现在让我们开始吧. MySQL中的两种排序方式 1.通过有序索引顺序扫描直接返回有序数据 因为索引的结构是B+树,索引中的数据是按照一定顺序进行排列的,所以在排序查询中如果能利用索引,就能避免额外的排序操作.EXPLAIN分析查询时,Extra显示为Using index. 2.Filesort排序,对返回的数据进行排序 所有不是通过索引直接返回排序结果的操作都

随机推荐