MySQL线上死锁分析实战

前言

MySQL 的锁机制相信大家在学习 MySQL 的时候都有简单的了解过,那既然有锁就必定绕不开死锁这个问题。其实 MySQL 在大部分场景下是不会存在死锁问题的(比如并发量不高,SQL 写得不至于太拉胯的情况),但是在高并发的业务场景下,一不注意就会产生死锁,而这个死锁分析起来也比较麻烦。

前段时间在公司实习的时候就遇到了一个比较奇怪的死锁,之前一直没来得及好好整理,最近有空复现了一下,算是积累一点经验。

业务场景

简单说一下业务背景,公司做的是电商直播,我负责的是主播端相关的业务。而这个死锁就出现在主播后台对商品信息进行更新的时候。

我们的一个商品会有两个关联的 ID,通过其中任何一个 ID 都无法确定唯一一件商品(也就是说这个 ID 和商品是一对多的关系),只能同时查询两个 ID,才能确定一件商品。所以在更新商品信息的时候,需要在 where 条件中同时指定两个 ID,下面是死锁 SQL 的结构(已脱敏):

UPDATE test_table SET `name`="zhangsan" WHERE class_id = 10 AND teacher_id = 8;

这个 SQL 非常简单,根据两个等值条件,对一个字段进行更新。

不知道你看到这个 SQL 会不会懵逼,按常理来说,应该是一个事务里有多条 SQL 才会有可能出现死锁,这一条 SQL 怎么可能出现死锁呢?

是的,我当时也有这样的疑惑,甚至怀疑是不是报警系统瞎报(最后证明不是…),当时是真的摸不着头脑。并且因为数据库权限的原因,想看死锁日志都看不到,又是临近下班的时候,找 DBA 能麻烦死,所以就直接搜索引擎走起了……(关键词:update 死锁 单条 sql),最后查出来是由于 MySQL 的索引合并优化导致的,即 Index Merge,下面会进行详细讲解并复现一下死锁场景。

索引合并

Index Merge 是 MySQL 在 5.0 的时候引入的一项优化功能,主要是用于优化一条 SQL 使用多个索引的情况。

我们来看刚刚的 SQL,假设 class_idteacher_id 分别是两个普通索引:

UPDATE test_table SET `name`="zhangsan" WHERE class_id = 10 AND teacher_id = 8;

如果没有 Index Merge 优化的时候,MySQL 查询数据的步骤如下:

  • 根据 class_id 或 teacher_id (具体使用哪个索引由优化器根据实际数据情况自行判断,这里假设使用 class_id的索引)在二级索引上查询到对应数据的主键 ID
  • 根据查询到的主键 ID 进行回标查询(即查询聚簇索引),得到相应的数据行
  • 从数据行中获取 teacher_id ,判断其是否等于 8,满足条件则返回

从这个过程中,不难看出,MySQL 只使用到了一个索引,至于为什么不使用多个索引,简单来说就是因为多个索引在多棵树上,强行使用反而降低性能。

再来看看引入了 Index Merge 优化后,MySQL 查询数据的步骤如下:

  • 根据 class_id 查询到相应的主键,再根据主键回表查询到对应的数据行(记为结果集 A)
  • 根据 teacher_id 查询到相应的主键,再根据主键回表查询到对应的数据行(记为结果集 B)
  • 将结果集 A 和结果集 B 执行交集操作,获得最终满足条件的结果集

这里可以看出,有了 Index Merge 之后,MySQL 将一条 SQL 语句拆分成了两个查询步骤,分别使用两个索引,再用交集操作优化性能。

死锁分析

分析完了 Index Merge 的步骤,我们再回过头想一下为什么会出现死锁呢?

还记得上面说的 Index Merge 将一条 SQL 查询拆分成了两个步骤吗,问题就出现在这里。我们知道 UPDATE 语句是会加上一个行级排他锁的,在分析加锁步骤之前,我们假设有如下一个数据表:

上表数据满足我们文章开头说的特点,根据 class_idteacher_id 单个字段均无法唯一确定一条数据,只能联合两个字段,才能确定一条数据,并且设定 class_idteacher_id 分别为两个普通索引。

假设有如下两条 SQL 语句并发执行,它们的参数完全不同,直觉告诉我们应该不会出现死锁,但直觉往往是错误的:

// 线程 A 执行
UPDATE test_table SET `name`="zhangsan" WHERE class_id = 2 AND teacher_id = 1;

// 线程 B 执行
UPDATE test_table SET `name`="zhangsan" WHERE class_id = 1 AND teacher_id = 2;

那么在 Index Merge 的优化下,并发执行如上 SQL 的时候,MySQL 的加锁步骤如下:

最终,两个事务互相等待,形成死锁

解决方案

因为这个死锁本质上还是由于 Index Merge 这个优化导致的,所以要解决这个场景的死锁问题,本质上只要让 MySQL 不走 Index Merge 优化即可。

方案一

手动将一条 SQL 拆分成多条 SQL,在逻辑层做交集操作,阻止 MySQL 的憨憨优化行为,比如这里我们可以先根据 class_id 查询到相应主键,再根据 teacher_id 查询相应主键,最后根据交集后的主键查询数据。

方案二

建立联合索引,比如这里可以将 class_idteacher_id 建立一个联合索引,MySQL 就不会走 Index Merge 了

方案三

强制走单个索引,在表名后添加 for index(class_id) 可以指定该语句仅走 class_id 索引

方案四

关闭 Index Merge 优化:

  • 永久关闭:SET [GLOBAL|SESSION] optimizer_switch='index_merge=off';
  • 临时关闭:UPDATE /*+ NO_INDEX_MERGE(test_table) */ test_table SET name="zhangsan" WHERE class_id = 10 AND teacher_id = 8;

场景复现

数据准备

为了方便测试,这里提供一个 SQL 脚本,将其用 Navicat 导入后即可得到需要的测试数据:

下载地址:https://cdn.juzibiji.top/file/index_merge_student.sql

导入之后,我们会得到如下格式的 10000 条测试数据:

测试代码

由于篇幅限制,这里仅给出代码 Gist 链接:https://gist.github.com/juzi214032/17c0f7a51bd8d1c0ab39fa203f930c60

上述代码主要是开启 100 个线程执行我们的数据修改 SQL 语句,来模拟线上并发情况,在运行几秒钟后,我们会得到下面这样一个报错:

com.mysql.cj.jdbc.exceptions.MySQLTransactionRollbackException: Deadlock found when trying to get lock; try restarting transaction

这代表已经产生了死锁异常

死锁分析

上面我们用代码已经构造出了一个死锁,接下来我们进入 MySQL 看看死锁日志,在 MySQL 中执行如下命令即可查看死锁日志:

SHOW ENGINE INNODB STATUS;

在日志中,我们找到 LATEST DETECTED DEADLOCK 这一行,这里开始便是我们上次产生的死锁,接下来我们开始分析。

通过第 29 行可以看到,事务 1 执行的 SQL 的条件是 class_id = 6teacher_id = 16 ,它目前持有了一个行锁,第 34~39 行是该行数据,34 行是主键的十六进制表示,我们转换为 10 进制即为 1616。同样的,看 45 行,其等待拿锁的是主键 id 1517 的数据。

接下来用同样的方法分析事务 2,可知事务 2 持有了 3 把锁,分别是主键 id 为1317、1417、1517 的数据行,等待的是 1616 。

看到这里我们就已经发现了,事务 1 持有 1616 等待 1517,事务 2 持有1517 等待 1616,所以形成了一个死锁。此时 MySQL 的处理方法是回滚持有锁最少的事务,并且 JDBC 会抛出我们前面的 MySQLTransactionRollbackException 回滚异常。

总结

这个死锁在排查的时候其实非常不好排查,如果你不知道 MySQL 的 Index Merge,那么在排查的时候其实是毫无头绪的,因为呈现在你面前的就只有一条非常简单的 SQL,就算看死锁日志,也是一样的不明所以。

所以处理这类问题,更多的还是考验你的知识储备量和经验,只要遇到过一次,后面在写 SQL 的时候多加注意就好了!

到此这篇关于MySQL线上死锁分析实战的文章就介绍到这了,更多相关MySQL线上死锁分析内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • MySQL死锁检查处理的正常方法

    正常情况下,死锁发生时,权重最小的连接将被kill并回滚.但是为了找出语句来优化,启用可启用死锁将死锁信息记录下来. #step 1:窗口一 mysql> start transaction; mysql> update aa set name='aaa' where id = 1; #step 2:窗口二 mysql> start transaction; mysql> update bb set name='bbb' where id = 1; #step 3:窗口一 mysq

  • MySQL死锁的产生原因以及解决方案

    数据库和操作系统一样,是一个多用户使用的共享资源.当多个用户并发地存取数据 时,在数据库中就会产生多个事务同时存取同一数据的情况.若对并发操作不加控制就可能会读取和存储不正确的数据,破坏数据库的一致性.加锁是实现数据库并 发控制的一个非常重要的技术.在实际应用中经常会遇到的与锁相关的异常情况,当两个事务需要一组有冲突的锁,而不能将事务继续下去的话,就会出现死锁,严 重影响应用的正常执行. 在数据库中有两种基本的锁类型:排它锁(Exclusive Locks,即X锁)和共享锁(Share Lock

  • Mysql查看死锁与解除死锁的深入讲解

    前言 前段时间遇到了一个Mysql 死锁相关的问题,整理一下. 问题描述:Mysql 的修改语句似乎都没有生效,同时使用Mysql GUI 工具编辑字段的值时会弹出异常. 什么是死锁 在解决Mysql 死锁的问题之前,还是先来了解一下什么是死锁. 死锁是指两个或两个以上的进程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都将无法推进下去.此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等的进程称为死锁进程. 死锁的表现 死锁的具体表现有两种: Mysql 增改语句无

  • mysql查看死锁与去除死锁示例详解

    1.查询进程 show processlist 2. 查询到相对应的进程,然后 kill id 验证(kill后再看是否还有锁) 2.查询是否锁表 show OPEN TABLES where In_use > 0; 示例: 新建一个会话执行如下的显示锁示例 LOCK TABLES account_data.account READ; SELECT SLEEP(160); UNLOCK TABLES account_data.account; 另开启一个会话检查锁表情况: mysql> sho

  • MySQL线上死锁分析实战

    前言 MySQL 的锁机制相信大家在学习 MySQL 的时候都有简单的了解过,那既然有锁就必定绕不开死锁这个问题.其实 MySQL 在大部分场景下是不会存在死锁问题的(比如并发量不高,SQL 写得不至于太拉胯的情况),但是在高并发的业务场景下,一不注意就会产生死锁,而这个死锁分析起来也比较麻烦. 前段时间在公司实习的时候就遇到了一个比较奇怪的死锁,之前一直没来得及好好整理,最近有空复现了一下,算是积累一点经验. 业务场景 简单说一下业务背景,公司做的是电商直播,我负责的是主播端相关的业务.而这个

  • MySQL 线上日志库迁移实例

    说说最近的一个案例吧,线上阿里云RDS上的一个游戏日志库最近出现了一点问题,随着游戏人数的增加,在线日志库的数据量越来越大,最新的日志库都已经到50G大小了,在线变更的时间非常长. 之前之所以没有发现,是因为之前一直没有进行过日志库的变更,但是随着业务的深入,需要增加一些游戏属性,要对之前的日志库进行变更,这样一来,长时间的维护窗口让业务方和DBA都望而却步,日志优化迫在眉睫. 首先看日志库的情况: 1.日志库中数据量大于5000w的大表有5张: 2.这5张表开量前每个月的数据量大概在2000w

  • MySQL 线上数据库清理数据的方法

    01 场景分析 今天下午,开发的同事提来一个需求,需要在线上要删除一些数据记录,简单看了看数据的分布,大概是要删除数据表中的两千七百多万条记录,数据表的总记录是两千八百多万,也就是说,要删除的记录占了总记录的绝大部分比重,两千七百多万的数据记录,要是删除的话,使用的时间是相当长的,对线上的业务肯定会造成影响.这里将实际的应用案例简单重构为以下方法: mysql> select date,count(*) from test.tbl_a group by date; +----------+---

  • MySQL数据库线上修改表结构的方法

    目录 一.MDL元数据锁 1.什么是MDL锁 2.MDL锁的问题 二.如何线上修改MySQL表结构 一.MDL元数据锁 在修改表结构之前,先来看下可能存在的问题. 1.什么是MDL锁 MySQL有一个把锁,叫做MDL元数据锁,当对表修改的时候,会自动给表加上这把锁,也就是不需要自己显式使用. 当对表做增删改查的时候,加的是MDL读锁 当对表结构做变更修改的时候,加的是MDL写锁 读与读之间不互斥,读与写,写与写之间互斥,因此 当有一个线程对表执行增删盖茶的时候,会阻塞掉别的线程对表结构修改的请求

  • Java线上问题排查神器Arthas实战原理解析

    概述 背景 是不是在实际开发工作当中经常碰到自己写的代码在开发.测试环境行云流水稳得一笔,可一到线上就经常不是缺这个就是少那个反正就是一顿报错抽风似的,线上调试代码又很麻烦,让人头疼得抓狂:而且debug不一定是最高效的方法,遇到线上问题不能debug了怎么办.原先我们Java中我们常用分析问题一般是使用JDK自带或第三方的分析工具如jstat.jmap.jstack. jconsole.visualvm.Java Mission Control.MAT等.但此刻的你没有看错,还有一款神器Art

  • 线上MYSQL同步报错故障处理方法总结(必看篇)

    前言 在发生故障切换后,经常遇到的问题就是同步报错,数据库很小的时候,dump完再导入很简单就处理好了,但线上的数据库都150G-200G,如果用单纯的这种方法,成本太高,故经过一段时间的摸索,总结了几种处理方法. 生产环境架构图 目前现网的架构,保存着两份数据,通过异步复制做的高可用集群,两台机器提供对外服务.在发生故障时,切换到slave上,并将其变成master,坏掉的机器反向同步新的master,在处理故障时,遇到最多的就是主从报错.下面是我收录下来的报错信息. 常见错误 最常见的3种情

  • MySQL的慢日志线上问题及优化方案

    MySQL 慢日志(slow log)是 MySQL DBA 及其他开发.运维人员需经常关注的一类信息.使用慢日志可找出执行时间较长或未走索引等 SQL 语句,为进行系统调优提供依据. 本文将结合一个线上案例,分析如何正确设置 MySQL 慢日志参数和使用慢日志功能,并介绍下网易云 RDS 对 MySQL 慢日志功能的增强. MySQL 参数组功能 网易云 RDS 实例提供了参数组管理功能,可通过参数管理界面查看绝大部分常用的 MySQL 系统参数,用户可了解当前运行值和建议值: 用户还可通过参

  • Java 实战范例之线上新闻平台系统的实现

    一.项目简述 功能: 用户的登录注册,新闻的分类查询,评论留言,投稿,新闻的后台管理,发布,审核,投稿管理以及汇总统计等等. 二.项目运行 环境配置: Jdk1.8 + Tomcat8.5 + mysql + Eclispe (IntelliJ IDEA,Eclispe,MyEclispe,Sts 都支持) 项目技术: Jsp + Jdbc + Servlert + html+ css + JavaScript + JQuery + Ajax + Fileupload 登录验证码代码生成: @C

  • Java 实战范例之线上婚纱摄影预定系统的实现

    一.项目简述 功能: 前后用户的登录注册,婚纱照片分类,查看,摄影师预 订,后台订单管理,图片管理等等. 二.项目运行 环境配置: Jdk1.8 + Tomcat8.5 + mysql + Eclispe (IntelliJ IDEA,Eclispe,MyEclispe,Sts 都支持) 项目技术:HTML+CSS+JavaScript+jsp+mysql+Spring+SpringMVC+mybatis+Spring boot 用户登陆信息操作代码: /** * 用户登陆信息操作 */ @Co

  • MySQL 优化 index merge引起的死锁分析

    目录 背景 死锁日志 表结构 执行计划 为什么会用 index_merge(索引合并) 解决方案 一.从代码层面 二.从MySQL层面 背景 生产环境出现死锁流水,通过查看死锁日志,看到造成死锁的是两条一样的update语句(只有where条件中的值不同), 如下: UPDATE test_table SET `status` = 1 WHERE `trans_id` = 'xxx1' AND `status` = 0; UPDATE test_table SET `status` = 1 WH

随机推荐