Mysql排序的特性详情

2025-02-27 22:45:59

1、问题场景

新上线一个交易记录导出功能，逻辑很简单：根据查询条件，导出对应的数据。由于数据量比较大，在查询数据库时采用了分页查询，每次查询1000条数据。

自测正常，测试环境正常，上线之后运营反馈导出的数据有重复记录。

原本是以为业务逻辑问题，重新Review了一遍代码，依旧未找到问题原因。最后只好把SQL语句拿出来单独执行，导出数据，对比发现竟然是SQL语句查询结果乱序导致的。

2、原因分析

查询语句以create_time进行倒序排序，通过limit进行分页，在正常情况下不会出现问题。但当业务并发量比较大，导致create_time存在大量相同值时，再基于limit进行分页，就会出现乱序问题。

出现的场景是：以create_time排序，当create_time存在相同值，通过limit分页，导致分页数据乱序。

比如，查询1000条数据，其中有一批create_time记录值都为”2021-10-28 12:12:12“，当创建时间相同的这些数据，一部分出现在第一页，一部分出现在第二页，在查询第二页的数据时，可能会出现第一页已经查过的数据。

也就是说，数据会来回跳动，一会儿出现在第一页，一会儿出现在第二页，这就导致导出的数据一部分重复，一部分缺失。

查看了Mysql 5.7和8.0的官方文档，描述如下：

If multiple rows have identical values in the ORDER BY columns, the server is free to return those rows in any order, and may do so differently depending on the overall execution plan. In other words, the sort order of those rows is nondeterministic with respect to the nonordered columns.

上述内容概述：在使用ORDER BY对列进行排序时，如果对应（ORDER BY的列）列存在多行相同数据，（Mysql）服务器会按照任意顺序返回这些行，并且可能会根据整体执行计划以不同的方式返回。

简单来说就是：ORDER BY查询的数据，如果ORDER BY列存在多行相同数据，Mysql会随机返回。这就会导致虽然使用了排序，但也会发生乱序的状况。

3、解决方案

针对上述问题，基本的解决思路是：避免ORDER BY列的值出现重复。因此，可以加入其他维度，比如ID等其他排序列。

select * from tb_order order by create_time ,id desc;

这样，在create_time相同时，会根据id进行排序，而id肯定是不同的，就再不会出现上述问题了。

4、拓展知识

其实，上述内容在Mysql的官网已经有明确说明，而且还举了例子。下面对官网的内容和例子做一个简单的汇总总结。

4.1 limit查询优化

如果我们只是查询一个结果集的一部分，那么不要查询所有数据，然后再丢弃不需要的数据，而是要通过limit条件来进行限制。

在没使用having条件时，Mysql可能会对limit条件优化：

如果只查询几条数据，建议使用limit，这样Mysql可能会用到索引，而通常情况下Mysql是全表扫描；
如果将limit row_count和order by结合使用，Mysql会在找到第一个row_count结果集后立刻停止排序，而不是对整个结果集进行排序。如果此时基于索引进行操作，速度会更快。如果必须进行文件排序，在找到row_count结果集之前，会对部分或所有符合条件的结果进行排序。但当找到row_count结果之后，便不会对剩余部分进行排序了。这种特性的一个表现就是我们前面提到的带有limit和不带limit进行查询时，返回的结果顺序可能不同。
如果将limit row_count和distinct结合使用，Mysql会在找到row_count结果集唯一行后立马停止。
在某些情况下，可以通过按照顺序读取索引（或对索引进行排序），然后计算摘要直到索引变化来实现group by。在这种情况下，limit row_count不会计算任何不必要的group by值。
一旦MySQL向客户端发送了所需数量的行，就会中止查询，除非使用了SQL_CALC_FOUND_ROWS。在这种情况下，可以使用 SELECT FOUND_ROWS() 检索行数。
LIMIT 0会快速返回一个空集合，通常可用于检查SQL的有效性。还可以用于在应用程序中获得结果集的类型。在Mysql客户端中，可以使用--column-type-info来显示结果列类型。
如果使用临时表来解析查询，Mysql会使用 limit row_count来计算需要多少空间。
如果order by未使用索引，且存在limit条件，则优化器可能会避免使用合并文件，而采用内存filesort操作对内存中的行进行排序。

了解了limit的一些特性，下面再回到本文的重点，limit row_count和order by结合使用特性。

4.2 limit与order by结合使用

在上面第二条中已经提到，limit row_count和order by结合呈现的特性之一就是结果返回的顺序是不确定的。而影响执行计划的一个因素就是limit，因此带有limit与不带有limit执行同样的查询语句，返回结果的顺序可能不同。

下面示例中，根据category列进行排序查询，而id和rating是不确定的：

mysql> SELECT * FROM ratings ORDER BY category;
+----+----------+--------+
| id | category | rating |
+----+----------+--------+
|  1 |        1 |    4.5 |
|  5 |        1 |    3.2 |
|  3 |        2 |    3.7 |
|  4 |        2 |    3.5 |
|  6 |        2 |    3.5 |
|  2 |        3 |    5.0 |
|  7 |        3 |    2.7 |
+----+----------+--------+

当查询语句包含limit时，可能会影响到category值相同的数据：

mysql> SELECT * FROM ratings ORDER BY category LIMIT 5;
+----+----------+--------+
| id | category | rating |
+----+----------+--------+
|  1 |        1 |    4.5 |
|  5 |        1 |    3.2 |
|  4 |        2 |    3.5 |
|  3 |        2 |    3.7 |
|  6 |        2 |    3.5 |
+----+----------+--------+

其中id为3和4的结果位置发生了变化。

在实践中，保持查询结果的顺序性往往非常重要，此时就需要引入其他列来保证结果的顺序性了。

当上述实例引入id之后，查询语句及结果如下：

mysql> SELECT * FROM ratings ORDER BY category, id;
+----+----------+--------+
| id | category | rating |
+----+----------+--------+
|  1 |        1 |    4.5 |
|  5 |        1 |    3.2 |
|  3 |        2 |    3.7 |
|  4 |        2 |    3.5 |
|  6 |        2 |    3.5 |
|  2 |        3 |    5.0 |
|  7 |        3 |    2.7 |
+----+----------+--------+

mysql> SELECT * FROM ratings ORDER BY category, id LIMIT 5;
+----+----------+--------+
| id | category | rating |
+----+----------+--------+
|  1 |        1 |    4.5 |
|  5 |        1 |    3.2 |
|  3 |        2 |    3.7 |
|  4 |        2 |    3.5 |
|  6 |        2 |    3.5 |
+----+----------+--------+

可以看出，当添加了id列的排序，即使category相同，也不会出现乱序问题。这正与我们最初的解决方案一致。

5、小结

本来通过实践中偶发的一个坑，聊到了Mysql对limit查询语句的优化，同时提供了解决方案，即满足了业务需求，又避免了业务逻辑的错误。

很多朋友都在使用order by和limit语句进行查询，但如果不知道Mysql的这些优化特性，很可能已经入坑，只不过数据量没有触发呈现而已。

到此这篇关于Mysql排序的特性详情的文章就介绍到这了,更多相关Mysql排序特性内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Mysql排序和分页(order by&limit)及存在的坑

排序查询(order by) 电商中:我们想查看今天所有成交的订单,按照交易额从高到低排序,此时我们可以使用数据库中的排序功能来完成. 排序语法: select 字段名 from 表名 order by 字段1 [asc|desc],字段2 [asc|desc]; 需要排序的字段跟在order by之后: asc|desc表示排序的规则,asc:升序,desc:降序,默认为asc: 支持多个字段进行排序,多字段排序之间用逗号隔开. 单字段排序 mysql> create table test2(
MySQL中utf8mb4排序规则示例

在MySQL中常见的utf8mb4排序规则有: utf8mb4_0900_ai_ci utf8mb4_unicode_ci utf8mb4_general_ci 当设置表的默认字符集为utf8mb4字符集但未明确指定排序规则时: 在MySQL 5.7版本中,默认排序规则为utf8mb4_general_ci. 在MySQL 8.0版本中,默认排序规则为utf8mb4_0900_ai_ci. 由于utf8mb4_0900_ai_ci排序规则时MySQL 8.0引入的排序规则,因此将MySQL 8.
MySQL排序原理和案例详析

前言排序是数据库中的一个基本功能,MySQL也不例外.用户通过Order by语句即能达到将指定的结果集排序的目的,其实不仅仅是Order by语句,Group by语句,Distinct语句都会隐含使用排序.本文首先会简单介绍SQL如何利用索引避免排序代价,然后会介绍MySQL实现排序的内部原理,并介绍与排序相关的参数,最后会给出几个"奇怪"排序例子,来谈谈排序一致性问题,并说明产生现象的本质原因. 1.排序优化与索引使用为了优化SQL语句的排序性能,最好的情况是避免排序,合理利
MySQL 使用索引扫描进行排序

目录安装sakila 索引扫描排序表结构可以使用索引扫描来做排序的情况补足前导列 order by 中只包含一种排序无法使用索引扫描的情况查询条件中包含不同排序方向查询条件中引用不在索引中的列无法组合最左前缀时第一列是查询范围时 where中有多个等于条件总结安装sakila 我们将会使用MySQL示例数据库sakila来进行sql的演示和讲解 dev.mysql.com/doc/sakila/- 索引扫描排序 MySQL有两种方式可以生成有序的结果:通过排序操作﹔或者按索
MySQL利用索引优化ORDER BY排序语句的方法

创建表&创建索引 create table tbl1 ( id int unique, sname varchar(50), index tbl1_index_sname(sname desc) ); 在已有的表创建索引语法 create [unique|fulltext|spatial] index 索引名 on 表名(字段名 [长度] [asc|desc]); MySQL也能利用索引来快速地执行ORDER BY和GROUP BY语句的排序和分组操作. 通过索引优化来实现MySQL的ORDER
Mysql 中文排序规则说明

使用MySQL过程中,我们经常会对一个字段进行排序查询,我们一般都是想要按照中文拼音首字母进行依次排序,但mysql中进行中文排序的时候,对汉字的排序结果往往都是错误的. 这种情况在MySQL的很多版本中都存在. 如果这个问题不解决,那么MySQL将无法实际处理中文. 出现这个问题的原因是因为MySQL在查询字符串时是大小写不敏感的,在编绎MySQL时一般以ISO-8859字符集作为默认的字符集,因此在比较过程中中文编码字符大小写转换造成了这种现象. 查了资料有两种解决方法: 1.对于包含中文的
MySQL 聚合函数排序

目录 MySQL 结果排序-- 聚集函数环境查询结果排序查询的分组与汇总查一下学生们平均年龄查一下总人数是多少查一下每个年龄有多少人查出最大年龄总结 MySQL 结果排序-- 聚集函数环境 CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '学号', `student_name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_c
MySQL 查询的排序、分页相关

概述数据库中的数据直接呈现出来一般不是我们想要的,所以我们上两节演示了如何对数据进行过滤的方法.除了对数据进行过滤, 我们可能还需要对数据进行排序,比如想从列表中了解消费最高的项,就可能需要对金额字段做降序排序,想看年龄从小到大的分布情况,就可能需要对user表的age字段进行升序排序. 也可能需要对数据进行限制,比如我们需要对付款的1~10,11~20,21~30 名的用户分别赠予不同的礼品,这时候对数据的限制就很有用了. 备注:下面脚本中[]包含的表示可选,| 分隔符表示可选其一. 数据排
MySQL中一些鲜为人知的排序方式

前言 ORDER BY 字段名升序/降序,相信进来的朋友都认识这个排序语句,但遇到一些特殊的排序,单单使用字段名就无法满足需求了,下面给大家介绍几个我遇到过的排序方法: 一.准备工作为了更好演示与理解,先准备一张学生表,加入编号.姓名.成绩三个字段,插入几条数据,如图: 二.条件排序需求一:成绩从高到低进行排序街边卖菜的阿姨都能敲,直接使用 ORDER BY examScore DESC 轻松完成了(如下左图). 需求二:成绩从高到低进行排序,并且没录入成绩的排在最前面客户体验最重要,
基于mysql 默认排序规则的坑

mysql默认varchar类型是对大小写不敏感(不区分),如果想要mysql区分大小写需要设置排序规则: utf8_bin将字符串中的每一个字符用二进制数据存储,区分大小写. utf8_genera_ci不区分大小写,ci为case insensitive的缩写,即大小写不敏感. utf8_general_cs区分大小写,cs为case sensitive的缩写,即大小写敏感. 用utf8_genera_ci没有区分大小写,导致这个字段的内容区分大小写时出问题,比如作为区分大小写的code或者