使用limit,offset分页场景时为什么会慢

从一个问题说起

五年前在腾讯的时候,发现分页场景下,mysql请求速度非常慢。数据量只有10w的情况下,select xx from 单机大概2,3秒。

我就问我师父为什么,他反问“索引场景,mysql中获得第n大的数,时间复杂度是多少?”

答案的追寻

确认场景

假设status上面有索引。select * from table where status = xx limit 10 offset 10000。

会非常慢。数据量不大的情况就有几秒延迟。

小白作答

那时候非常有安全感,有啥事都有师父兜着,反正技术都是组里最差的,就瞎猜了个log(N),心想找一个节点不就是log(N)。自然而然,师父让我自己去研究。

这一阶段,用了10分钟。

继续解答

仔细分析一下,会发现通过索引去找很别扭。因为你不知道前100个数在左子树和右子数的分布情况,所以其是无法利用二叉树的查找特性。

通过学习,了解到mysql的索引是b+树。

看了这个图,就豁然开朗了。可以直接通过叶子节点组成的链表,以o(n)的复杂度找到第100大的树。但是即使是o(n),也不至于慢得令人发指,是否还有原因。

这一阶段,主要是通过网上查资料,断断续续用了10天。

系统学习

这里推荐两本书,一本《MySQL技术内幕 InnoDB存储引擎》,通过他可以对InnoDB的实现机制,如mvcc,索引实现,文件存储会有更深理解。

第二本是《高性能MySQL》,这本书从着手使用层面,但讲得比较深入,而且提到了很多设计的思路。

两本书相结合,反复领会,mysql就勉强能登堂入室了。

这里有两个关键概念:

  • 聚簇索引:包含主键索引和对应的实际数据,索引的叶子节点就是数据节点
  • 辅助索引:可以理解为二级节点,其叶子节点还是索引节点,包含了主键id。

即使前10000个会扔掉,mysql也会通过二级索引上的主键id,去聚簇索引上查一遍数据,这可是10000次随机io,自然慢成哈士奇。

这里可能会提出疑问,为什么会有这种行为,这是和mysql的分层有关系,limit offset 只能作用于引擎层返回的结果集。换句话说,引擎层也很无辜,他并不知道这10000个是要扔掉的。

以下是mysql分层示意图,可以看到,引擎层和server层,实际是分开的。

直到此时,大概明白了慢的原因。这一阶段,用了一年。

触类旁通

此时工作已经3年了,也开始看一些源码。在看完etcd之后,看了些tidb的源码。无论哪种数据库,其实一条语句的查询,是由逻辑算子组成。

逻辑算子介绍

在写具体的优化规则之前,先简单介绍查询计划里面的一些逻辑算子。

  • DataSource 这个就是数据源,也就是表,select * from t 里面的 t。
  • Selection 选择,例如 select xxx from t where xx = 5 里面的 where 过滤条件。
  • Projection 投影, select c from t 里面的取 c 列是投影操作。
  • Join 连接, select xx from t1, t2 where t1.c = t2.c 就是把 t1 t2 两个表做 Join。

选择,投影,连接(简称 SPJ) 是最基本的算子。其中 Join 有内连接,左外右外连接等多种连接方式。

select b from t1, t2 where t1.c = t2.c and t1.a > 5变成逻辑查询计划之后,t1 t2 对应的 DataSource,负责将数据捞上来。

上面接个 Join 算子,将两个表的结果按 t1.c = t2.c连接,再按 t1.a > 5 做一个 Selection 过滤,最后将 b 列投影。

下图是未经优化的表示:

所以说不是mysql不想把limit, offset传递给引擎层,而是因为划分了逻辑算子,所以导致无法直到具体算子包含了多少符合条件的数据。

怎么解决

《高性能MySQL》提到了两种方案

方案一

根据业务实际需求,看能否替换为下一页,上一页的功能,特别在ios, android端,以前那种完全的分页是不常见的。

这里是说,把limit, offset,替换为>辅助索引(即搜索条件)id的方式。该id再调用时,需要返回给前端。

方案二

正面刚。这里介绍一个概念:索引覆盖:当辅助索引查询的数据,只有id和辅助索引本身,那么就不必再去查聚簇索引。

思路如下:select xxx,xxx from in (select id from table where second_index = xxx limit 10 offset 10000)这句话是说,先从条件查询中,查找数据对应的数据库唯一id值,因为主键在辅助索引上就有,所以不用回归到聚簇索引的磁盘去拉取。再通过这些已经被limit出来的10个主键id,去查询聚簇索引。这样只会十次随机io。

在业务确实需要用分页的情况下,使用该方案可以大幅度提高性能。通常能满足性能要求。

写在最后

非常感谢我师父在我毕业前三年的指导,给了我很多耐心。在节假日给我布置看书任务,在午休时候考察我学习的进展,通过提问的方式引导我去探索问题,在我从腾讯毕业后,每次见面也给我出了很多主意,传授授业解惑,无一没有做到极致。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • laravel自定义分页的实现案例offset()和limit()

    情景:因个人使用layui在开发后台模块,因为layui自带了table模块,是都封装了分页的,并且返回数据格式也是有固定要求的 所以我们就不能去使用laravel的快速分页paginate去分页了, 只能使用offset()和limit()一起使用去实现自定义分页功能 一下为我实现的代码 $pagenNum=request('page'); $limit=request('limit'); $count=Admin::count(); $page=$pagenNum-1; if ($page

  • 使用limit,offset分页场景时为什么会慢

    从一个问题说起 五年前在腾讯的时候,发现分页场景下,mysql请求速度非常慢.数据量只有10w的情况下,select xx from 单机大概2,3秒. 我就问我师父为什么,他反问"索引场景,mysql中获得第n大的数,时间复杂度是多少?" 答案的追寻 确认场景 假设status上面有索引.select * from table where status = xx limit 10 offset 10000. 会非常慢.数据量不大的情况就有几秒延迟. 小白作答 那时候非常有安全感,有啥

  • jQuery Pagination Ajax分页插件(分页切换时无刷新与延迟)中文翻译版

    原项目地址:http://plugins.jquery.com/project/pagination版本:v1.2源文件下载:英文原版 或中文翻译修改版 一.相关demo 基本demo页面 Ajax demo页面 参数可编辑demo页面二.简介与说明 此jQuery插件为Ajax分页插件,一次性加载,故分页切换时无刷新与延迟,如果数据量较大不建议用此方法,因为加载会比较慢. 原插件CSS不太合理,使用浮动,故无法方便实现左右方向的定位,且未清除浮动,在中文修改版中我对其进行了优化,使其支持tex

  • Mybatis Limit实现分页功能

    1. Limit实现分页 1.1 为什么需要分页 减少数据的处理量 1.2 使用Limit实现分页 select * from user limit startIndex,pageSize; # 注意是从startIndex+1开始查询 pageSize 个 select * from user limit 3; # [0,3] 1.3 使用mybatis实现分页(核心:SQL) 1.3.1 接口 UserMapper.java // limit实现分页 Map后面只能是 Integer 包装类

  • Java之mybatis使用limit实现分页案例讲解

    1. Limit实现分页 1.1 为什么需要分页 减少数据的处理量 1.2 使用Limit实现分页 select * from user limit startIndex,pageSize; # 注意是从startIndex+1开始查询 pageSize 个 select * from user limit 3; # [0,3] 1.3 使用mybatis实现分页(核心:SQL) 1.3.1 接口 UserMapper.java // limit实现分页 Map后面只能是 Integer 包装类

  • 解决MybatisPlus SqlServer OFFSET 分页问题

    目录 问题 错误源码重现 找资料 解决 问题 使用MybatisPlus 连接 SqlServer 数据库 ,在分页的时候发生了如下的报错,sql语句和报错如下: Cause: com.microsoft.sqlserver.jdbc.SQLServerException: “@P0”附近有语法错误....SQL: SELECT  * FROM tb_admin  OFFSET 0 ROWS FETCH NEXT 15 ROWS ONLY 错误源码重现 依赖 <!-- mybatis-plus

  • 在MySQL中使用LIMIT进行分页的方法

    今天看一个水友说他的MySQL现在变的很慢.问什么情况时.说单表超过2个G的一个MyISAM.真垃圾的回答方式. 简单答复:换一个强劲的服务器.换服务器很管用的:) ---        最终让取到慢查询: SELECT * FROM pw_gbook WHERE uid='N' ORDER BY postdate DESC LIMIT N,N; SELECT * FROM pw_gbook WHERE uid='N' ORDER BY postdate DESC LIMIT N,N; 如: S

  • 优化mysql的limit offset的例子

    经常碰到的一个问题是limit的offset太高,如:limit 100000,20,这样系统会查询100020条,然后把前面的100000条都扔掉,这是开销很大的操作,导致查询很慢.假设所有分页的页面访问频率一样,这样的查询平均扫描表的一半数据.优化的方法,要么限制访问后面的页数,要么提升高偏移的查询效率. 一个简单的优化办法是使用覆盖查询(covering index)查询,然后再跟全行的做join操作.如: 复制代码 代码如下: SQL>select * from user_order_i

  • SQL 窗口函数实现高效分页查询的案例分析

    🍺不闻不若闻之,闻之不若见之,见之不若知之,知之不若行之.学至于行之而止矣.--荀子 大家好!我是只谈技术不剪发的 Tony 老师. 在使用 SQL 语句实现分页查询时,我们需要知道一些额外的参数信息,例如查询返回的总行数.当前所在的页数.最后一页的页数等.在传统的实现方法中我们需要执行额外的查询语句获得这些信息,本文介绍一种只需要一个查询语句就可以返回所有数据的方法,也就是通过 SQL 窗口函数实现高效的分页查询功能. 本文使用的示例表和数据可以这里下载. 传统方法实现分页查询 在 SQL 中实现分页查询的传统方法就是利用标准的 OFFSET - FETCH 语句或者许多数据库支持的 LIMIT - OFFSET 语句,例如: -- Oracle.SQL Server.PostgreSQL SELECT emp_name, sex, email FROM employee ORDER B

  • Django rest framework分页接口实现原理解析

    如果没有设置分页,django-rest-framework 会将所有资源类表序列化后返回,如果资源很多,就会对网站性能造成影响.为此,我们来给博客文章列表 API 添加分页功能. django-rest-framework 为分页功能提供了多个辅助类,常用的有: PageNumberPagination 将资源分为第 1 页.第 2 页...第 n 页,使用页码号请求分页结果. LimitOffsetPagination 通过 limit 和 offset 两个参数来控制请求的资源.例如通过发

  • mysql分页时offset过大的Sql优化经验分享

    发现问题 当我们展示一个列表中的内容时,难免会遇到分页问题,因为列表中的内容数量可能很多,但是用户能一次看到的界面大小是有限的,不可能一个界面展示所有的内容,从后端一次性取太多的数据也会给后端造成额外的压力. 通常分页查询的时候会使用这样的语句: SELECT * FROM table where condition1 = 0 and condition2 = 0 and condition3 = -1 and condition4 = -1 order by id asc LIMIT 2000

随机推荐