详解分库分表后非分片键如何查询

2025-03-02 22:26:07

正文

我们知道在分库分表中对于toC业务来说，需要选择用户属性如 user_id 作为分片键，不推荐使用order_id这样的作为分片键。

那问题来了，对于订单表来说，选择了user_id作为分片键以后如何查看订单详情呢？比如下面这样一条SQL：

SELECT * FROM T_ORDER WHERE order_id = 801462878019256325

由于查询条件中的order_id不是分片键，所以需要查询所有分片才能得到最终的结果。如果下面有 1000 个分片，那么就需要执行 1000 次这样的 SQL，这时性能就比较差了。

可以通过ShardingSphere-JDBC生成的SQL得知，根据order_id查询会对所有分片进行查询然后通过UNION ALL进行合并。

但是，我们知道 order_id 是主键，应该只有一条返回记录，也就是说，order_id 只存在于一个分片中。这时，可以有以下三种设计：

冗余数据法
索引表法
基因分片法

当然，这三种设计的本质都是通过冗余实现空间换时间的效果，否则就需要扫描所有的分片，当分片数据非常多，效率就会变得极差。

下面我们逐一分析。

设计一：冗余法

这种做法很容易理解，同一份订单数据在插入时保存两份，根据user_id 和 order_id分别做两个分库分表的实现。

通过对表进行冗余，对于 order_id 的查询，只需要在 order_id = 801462878019256325 的分片中直接查询就行，效率最高。但是这个方案设计的缺点又很明显：冗余数据量太大。

方法二：索引表法

索引表法是对第一种冗余法的改进，由于第一种方案冗余的数据量太大，所以索引表方案中只创建一个包含user_id和order_id的索引表，在插入订单时再插入一条数据到索引表中。

表结构如下

CREATE TABLE idx_orderid_userid （
  order_id bigint
  user_id bigint,
 &nbsp;PRIMARY KEY (order_id)
)

在实现时可以将idx_orderid_userid表通过Redis缓存来代替，如果此表数据量很大也可以将其分库分表，但是它的分片键是 order_id。

如果这时再根据字段 order_id 进行查询，可以进行类似二级索引的回表实现：先通过查询索引表得到记录 order_id = 801462878019256325 对应的分片键 user_id 的值，接着再根据 user_id 进行查询，最终定位到想要的数据，如：

原始SQL：

SELECT * FROM T_ORDER WHERE order_id = 801462878019256325

拆分后的SQL：

# step 1
SELECT user_id FROM idx_orderid_userid
WHERE order_id = 801462890610556951

# step 2
SELECT * FROM T_ORDER
WHERE user_id = ? AND order_id = 801462890610556951

这个例子是将一条 SQL 语句拆分成 2 条 SQL 语句，但是拆分后的 2 条 SQL 都可以通过分片键进行查询，这样能保证只需要在单个分片中完成查询操作。不论有多少个分片，也只需要查询 2个分片的信息，这样 SQL 的查询性能可以得到极大的提升。

方法三：基因法

通过索引表的方式，虽然存储上较冗余全表容量小了很多，但是要根据另一个分片键进行数据的存储，还是显得不够优雅。

因此，最优的设计，不是创建一个索引表，而是将分片键的信息保存在想要查询的列中，这样通过查询的列就能直接知道所在的分片信息，这种方法也叫叫做基因法。

基因法的原理出自一个理论：对一个数取余2的n次方，那么余数就是这个数的二进制的最后n位数。

假如我们现在根据user_id进行分片，采用user_id % 16的方式来进行数据库路由，这里的user_id%16，其本质是user_id的最后4个bit位 log(16,2) = 4 决定这行数据落在哪个分片上，这4个bit就是分片基因。

如上图所示，user_id=20160169的用户创建了一个订单（20160169的二进制表示为：1001100111001111010101001)

使用user_id%16分片，决定这行数据要插入到哪个分片中
分库基因是user_id的最后4个bit，log(16,2) = 4，即1001
在生成order_id时，先使用一种分布式ID生成算法生成前60bit（上图中绿色部分）
将分库基因加入到order_id的最后4个bit（上图中粉色部分）
拼装成最终的64bit订单order_id（上图中蓝色部分）

这样保证了同一个用户创建的所有订单都落到了同一个分片上，order_id的最后4个bit都相同，于是：

通过user_id %16 能够定位到分片
通过order_id % 16也能定位到分片

不好理解的话，可以看下面这段代码：

@Test
public void modIdTest(){
    long userID = 20160169L;
    //分片数量
    int shardNum = 16;
    String gen = getGen(userID, shardNum);
    log.info("userID:{}的基因为:{}",userID,gen);
    long snowId = IdWorker.getId(Order.class);
    log.info("雪花算法生成的订单ID为{}",snowId);
    Long orderId = buildGenId(snowId,gen);
    log.info("基因转换后的订单ID为{}",orderId);

    Assert.assertEquals(orderId % shardNum , userID % shardNum);
}

运行结果如下：

原始订单ID为1595662702879973377，通过基因转换后ID变成了1595662702879973385，对于用户id 和新生成的订单id对其取模结果一样。

上面那种做法是基因替换，替换掉订单id的分片基因。下面这种做法就更显直接。

将订单表 orders 的主键设计为一个字符串，这个字符串中最后一部分包含分片键的信息，如：

order_id = string（order_id + user_id）

那么这时如果根据 order_id 进行查询：

SELECT * FROM T_ORDER
WHERE order_id = '1595662702879973377-20160169';

由于字段 order_id 的设计中直接包含了分片键信息，所以我们可以直接通过分片键部分直接定位到分片上。

同样地，在插入时，由于可以知道插入时 user_id 对应的值，所以只要在业务层做一次字符的拼接，然后再插入数据库就行了。

这样的实现方式较冗余表和索引表的设计来说，效率更高，查询时可以直接定位到数据对应的分片信息，只需 1 次查询就能获取想要的结果。

这样实现的缺点是，主键值会变大一些，存储也会相应变大。但是只要主键值是有序的，插入的性能就不会变差。而通过在主键值中保存分片信息，却可以大大提升后续的查询效率，这样空间换时间的设计，总体上看是非常值得的。

实际上淘宝的订单号也是这样构建的

上图是我的淘宝订单信息，可以看到，订单号的最后 6 位都是 607041，所以可以大概率推测出：

淘宝订单表的分片键是用户 ID；
淘宝订单表，订单表的主键包含用户 ID，也就是分片信息。这样通过订单号进行查询，可以获得分片信息，从而查询 1 个分片就能得到最终的结果。

小结

分库分表后需要遵循一个基本原则：所有的查询尽量带上sharding key，有时候业务需要根据技术限制进行妥协，那种既要...又要...就是在耍流氓。

当然有些业务场景确实没办法避免，对于非sharding key的查询可以参考上面三种方案实现，不过实际上只能算两种。

曾经在面试时我还被问到过这个问题～

今天的文章是属于理论知识，Talk is cheap,Show me the code! 接下来两篇文章我将结合ShardingSphere-JDBC实现上述两种方案，更多关于分库分表非分片键查询的资料请关注我们其它相关文章！

MySQL分库分表的几种方式

目录一.为什么要分库分表二.什么是分库分表三.分库分表的几种方式 1.垂直拆分 2. 水平拆分四.分库分表带来的问题五.分库分表技术如何选型一.为什么要分库分表如果一个网站业务快速发展,那这个网站流量也会增加,数据的压力也会随之而来,比如电商系统来说双十一大促对订单数据压力很大,Tps十几万并发量,如果传统的架构(一主多从),主库容量肯定无法满足这么高的Tps,业务越来越大,单表数据超出了数据库支持的容量,持久化磁盘IO,传统的数据库性能瓶颈,产品经理业务·必须做,改变程序,数据库
MySQL 分库分表的项目实践

目录一.为什么要分库分表二.库表太大产生的问题三.垂直拆分 1. 垂直分库 2. 垂直分表四.水平分库分表一.为什么要分库分表数据库架构演变刚开始多数项目用单机数据库就够了,随着服务器流量越来越大,面对的请求也越来越多,我们做了数据库读写分离, 使用多个从库副本(Slave)负责读,使用主库(Master)负责写,master和slave通过主从复制实现数据同步更新,保持数据一致.slave 从库可以水平扩展,所以更多的读请求不成问题但是当用户量级上升,写请求越来越多,怎么保证数
MySQL分库分表后路由策略设计详情

目录概述支持场景路由策略用户端路由key 商家路由key 概述分库分表后设计到的第一个问题就是,如何选择路由key,应该如何对key进行路由.路由key应该在每个表中都存在而且唯一.路由策略应尽量保证数据能均匀进行分布. 如果是对大数据量进行归档类的业务可以选择时间作为路由key.比如按数据的创建时间作为路由key,每个月或者每个季度创建一个表.按时间作为分库分表后的路由策略可以做到数据归档,历史数据访问流量较小,流量都会打到最新的数据库表中. 也可以设计其与业务相关的路由key.这样
Mysql分库分表之后主键处理的几种方法

目录数据库自增 ID 设置数据库 sequence 或者表自增字段步长 UUID 系统当前时间戳+XXX Snowflake 算法数据库自增 ID 搞一个数据库,什么也不干,就用于生成主键. 你的系统里每次得到一个 id,都需要往那个专门生成主键的数据库中通过插入获取一个自增的ID,拿到这个 id 之后再往对应的分库分表里去写入. 优点:方便简单. 缺点:单库生成自增 id,要是高并发的话,就会有瓶颈的:如果你硬是要改进一下,那么就专门开一个服务出来,这个服务每次就拿到当前 id 最大值,然
Sharding-Proxy分库分表和数据加密使用场景分析

目录 Sharding-Proxy分库分表和数据加密使用场景配置文件讲解 server.yaml config-sharding.yaml config-encrypt.yaml 其他使用情况总结 Sharding-Proxy分库分表和数据加密主要将实际项目中使用shardingshpere-proxy的经历经验,总结分享一下. 使用场景公司规划研发了两款针对政务新媒体和数字乡村的SaaS平台,作为新的利润增长点.考虑到以后的用户数量和数据数量,决定按照租户(签约客户)进行分库分表.
详解分库分表后非分片键如何查询

目录正文设计一:冗余法方法二:索引表法方法三:基因法小结正文我们知道在分库分表中对于toC业务来说,需要选择用户属性如 user_id 作为分片键,不推荐使用order_id这样的作为分片键. 那问题来了,对于订单表来说,选择了user_id作为分片键以后如何查看订单详情呢?比如下面这样一条SQL: SELECT * FROM T_ORDER WHERE order_id = 801462878019256325 由于查询条件中的order_id不是分片键,所以需要查询所有分片才能
mysql死锁和分库分表问题详解

记录生产mysql的问题点. 业务场景与问题描述请求一个外部接口时,每天的请求量在900万左右. 分为请求项目和回执这两个项目.请求是用来调用外部接口,回执是接收发送的接口. 在发送请求前会先插入数据库. 在请求后,如果接口返回调用失败,会更新数据库状态为失败. 如果发送成功,则会等待上游给出回执消息后,然后更新数据库状态. 而在生产运行过程中,半年出现过两次mysql导致的mq消费者堆积的问题. 问题分析记录两次不同的原因导致的生产问题及原因分析. mysql死锁问题查看mq聚合平台TP
springboot整合shardingjdbc实现分库分表最简单demo

一.概览 1.1 简介 ShardingSphere-JDBC定位为轻量级 Java 框架,在 Java 的 JDBC 层提供的额外服务. 它使用客户端直连数据库,以 jar 包形式提供服务,无需额外部署和依赖,可理解为增强版的 JDBC 驱动,完全兼容 JDBC 和各种 ORM 框架. 适用于任何基于 JDBC 的 ORM 框架,如:JPA, Hibernate, Mybatis, Spring JDBC Template 或直接使用 JDBC. 支持任何第三方的数据库连接池,如:DBCP,
Java中ShardingSphere分库分表实战

目录一. 项目需求二. 简介sharding-sphere 三. 项目实战四. 测试一. 项目需求我们做项目的时候,数据量比较大,单表千万级别的,需要分库分表,于是在网上搜索这方面的开源框架,最常见的就是mycat,sharding-sphere,最终我选择后者,用它来做分库分表比较容易上手. 二. 简介sharding-sphere 官网地址: https://shardingsphere.apache.org/ ShardingSphere是一套开源的分布式数据库中间件解决方案组成
MariaDB Spider 数据库分库分表实践记录

目录分库分表部署 MariaDB 实例 Docker 部署虚拟机部署 MariaDB 配置检查每个实例配置 Spider 远程表基准性能测试加入后端数据库哈希分片根据值范围分片根据列表分片分库分表一般来说,数据库分库分表,有以下做法: 按哈希分片:根据一条数据的标识计算哈希值,将其分配到特定的数据库引擎中: 按范围分片:根据一条数据的标识(一般是值),将其分配到特定的数据库引擎中: 按列表分片:根据某些字段的标识,如果符合条件则分配到特定的数据库引擎中. 分库分表的做法有
SpringBoot 如何使用sharding jdbc进行分库分表

目录基于4.0版本,Springboot2.1 在pom里确保有如下引用里面我profiles.active了另一个之后手工把表都建好写个测试代码需要注意一个坑基于4.0版本,Springboot2.1 之前写过一篇使用sharding-jdbc进行分库分表的文章,不过当时的版本还比较早,现在已经不能用了.这一篇是基于最新版来写的. 新版已经变成了shardingsphere了,https://shardingsphere.apache.org/. 有点不同的是,这一篇,我们是采用多
springboot jpa分库分表项目实现过程详解

这篇文章主要介绍了springboot jpa分库分表项目实现过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下分库分表场景关系型数据库本身比较容易成为系统瓶颈,单机存储容量.连接数.处理能力都有限.当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库.优化索引,做很多操作时性能仍下降严重.此时就要考虑对其进行切分了,切分的目的就在于减少数据库的负担,缩短查询时间. 分库分表用于应对当前互联网常见的两个场景--大数
详解在.net core中完美解决多租户分库分表的问题

前几天有人想做一个多租户的平台,每个租户一个库,可以进行水平扩展,应用端根据登录信息,切换到不同的租户库计划用ef core实现,他们说做不出来,需要动态创建dbContext,不好实现然而这个使用CRL很轻松就能解决了以下为演示数据库,有两个库testdb和testdb2,查询结果如下目标: 根据传入登录信息连不不同的库,查询返回结果,如登录人为01,返回d1.default,登录人为02 返回 d2.default 实际上这个需求就是分库分表的实现,通过设置数据库/表映射关系,根据传
Java基于ShardingSphere实现分库分表的实例详解

目录一.简介二.项目使用 1.引入依赖 2.数据库 3.实体类 4.mapper 5.yml配置 6.测试类 7.数据一.简介 Apache ShardingSphere 是一套开源的分布式数据库解决方案组成的生态圈,它由 JDBC.Proxy 和 Sidecar(规划中)这 3 款既能够独立部署,又支持混合部署配合使用的产品组成. 它们均提供标准化的数据水平扩展.分布式事务和分布式治理等功能,可适用于如 Java 同构.异构语言.云原生等各种多样化的应用场景. Apache Sh

详解分库分表后非分片键如何查询

目录

正文

设计一：冗余法

方法二：索引表法

方法三：基因法

小结

相关推荐

随机推荐