详解分库分表后非分片键如何查询

目录
  • 正文
  • 设计一:冗余法
  • 方法二:索引表法
  • 方法三:基因法
  • 小结

正文

我们知道在分库分表中对于toC业务来说,需要选择用户属性如 user_id 作为分片键,不推荐使用order_id这样的作为分片键。

那问题来了,对于订单表来说,选择了user_id作为分片键以后如何查看订单详情呢?比如下面这样一条SQL:

SELECT * FROM T_ORDER WHERE order_id = 801462878019256325

由于查询条件中的order_id不是分片键,所以需要查询所有分片才能得到最终的结果。如果下面有 1000 个分片,那么就需要执行 1000 次这样的 SQL,这时性能就比较差了。

可以通过ShardingSphere-JDBC生成的SQL得知,根据order_id查询会对所有分片进行查询然后通过UNION ALL进行合并。

但是,我们知道 order_id 是主键,应该只有一条返回记录,也就是说,order_id 只存在于一个分片中。这时,可以有以下三种设计:

  • 冗余数据法
  • 索引表法
  • 基因分片法

当然,这三种设计的本质都是通过冗余实现空间换时间的效果,否则就需要扫描所有的分片,当分片数据非常多,效率就会变得极差。

下面我们逐一分析。

设计一:冗余法

这种做法很容易理解,同一份订单数据在插入时保存两份,根据user_id 和 order_id分别做两个分库分表的实现。

通过对表进行冗余,对于 order_id 的查询,只需要在 order_id = 801462878019256325 的分片中直接查询就行,效率最高。但是这个方案设计的缺点又很明显:冗余数据量太大。

方法二:索引表法

索引表法是对第一种冗余法的改进,由于第一种方案冗余的数据量太大,所以索引表方案中只创建一个包含user_id和order_id的索引表,在插入订单时再插入一条数据到索引表中。

表结构如下

CREATE TABLE idx_orderid_userid (
  order_id bigint
  user_id bigint,
  PRIMARY KEY (order_id)
)

在实现时可以将idx_orderid_userid表通过Redis缓存来代替,如果此表数据量很大也可以将其分库分表,但是它的分片键是 order_id。

如果这时再根据字段 order_id 进行查询,可以进行类似二级索引的回表实现:先通过查询索引表得到记录 order_id = 801462878019256325 对应的分片键 user_id 的值,接着再根据 user_id 进行查询,最终定位到想要的数据,如:

原始SQL:

SELECT * FROM T_ORDER WHERE order_id = 801462878019256325

拆分后的SQL:

# step 1
SELECT user_id FROM idx_orderid_userid
WHERE order_id = 801462890610556951
​
# step 2
SELECT * FROM T_ORDER
WHERE user_id = ? AND order_id = 801462890610556951

这个例子是将一条 SQL 语句拆分成 2 条 SQL 语句,但是拆分后的 2 条 SQL 都可以通过分片键进行查询,这样能保证只需要在单个分片中完成查询操作。不论有多少个分片,也只需要查询 2个分片的信息,这样 SQL 的查询性能可以得到极大的提升。

方法三:基因法

通过索引表的方式,虽然存储上较冗余全表容量小了很多,但是要根据另一个分片键进行数据的存储,还是显得不够优雅。

因此,最优的设计,不是创建一个索引表,而是将分片键的信息保存在想要查询的列中,这样通过查询的列就能直接知道所在的分片信息,这种方法也叫叫做基因法。

基因法的原理出自一个理论:对一个数取余2的n次方,那么余数就是这个数的二进制的最后n位数。

假如我们现在根据user_id进行分片,采用user_id % 16的方式来进行数据库路由,这里的user_id%16,其本质是user_id的最后4个bit位 log(16,2) = 4 决定这行数据落在哪个分片上,这4个bit就是分片基因。

如上图所示,user_id=20160169的用户创建了一个订单(20160169的二进制表示为:1001100111001111010101001)

  • 使用user_id%16分片,决定这行数据要插入到哪个分片中
  • 分库基因是user_id的最后4个bit,log(16,2) = 4,即1001
  • 在生成order_id时,先使用一种分布式ID生成算法生成前60bit(上图中绿色部分)
  • 将分库基因加入到order_id的最后4个bit(上图中粉色部分)
  • 拼装成最终的64bit订单order_id(上图中蓝色部分)

这样保证了同一个用户创建的所有订单都落到了同一个分片上,order_id的最后4个bit都相同,于是:

  • 通过user_id %16 能够定位到分片
  • 通过order_id % 16也能定位到分片

不好理解的话,可以看下面这段代码:

@Test
public void modIdTest(){
    long userID = 20160169L;
    //分片数量
    int shardNum = 16;
    String gen = getGen(userID, shardNum);
    log.info("userID:{}的基因为:{}",userID,gen);
    long snowId = IdWorker.getId(Order.class);
    log.info("雪花算法生成的订单ID为{}",snowId);
    Long orderId = buildGenId(snowId,gen);
    log.info("基因转换后的订单ID为{}",orderId);
​
    Assert.assertEquals(orderId % shardNum , userID % shardNum);
}

运行结果如下:

原始订单ID为1595662702879973377,通过基因转换后ID变成了1595662702879973385,对于用户id 和 新生成的订单id对其取模结果一样。

上面那种做法是基因替换,替换掉订单id的分片基因。下面这种做法就更显直接。

将订单表 orders 的主键设计为一个字符串,这个字符串中最后一部分包含分片键的信息,如:

order_id = string(order_id + user_id)

那么这时如果根据 order_id 进行查询:

SELECT * FROM T_ORDER
WHERE order_id = '1595662702879973377-20160169';

由于字段 order_id 的设计中直接包含了分片键信息,所以我们可以直接通过分片键部分直接定位到分片上。

同样地,在插入时,由于可以知道插入时 user_id 对应的值,所以只要在业务层做一次字符的拼接,然后再插入数据库就行了。

这样的实现方式较冗余表和索引表的设计来说,效率更高,查询时可以直接定位到数据对应的分片信息,只需 1 次查询就能获取想要的结果。

这样实现的缺点是,主键值会变大一些,存储也会相应变大。但是只要主键值是有序的,插入的性能就不会变差。而通过在主键值中保存分片信息,却可以大大提升后续的查询效率,这样空间换时间的设计,总体上看是非常值得的。

实际上淘宝的订单号也是这样构建的

上图是我的淘宝订单信息,可以看到,订单号的最后 6 位都是 607041,所以可以大概率推测出:

  • 淘宝订单表的分片键是用户 ID;
  • 淘宝订单表,订单表的主键包含用户 ID,也就是分片信息。这样通过订单号进行查询,可以获得分片信息,从而查询 1 个分片就能得到最终的结果。

小结

分库分表后需要遵循一个基本原则:所有的查询尽量带上sharding key,有时候业务需要根据技术限制进行妥协,那种既要...又要...就是在耍流氓。

当然有些业务场景确实没办法避免,对于非sharding key的查询可以参考上面三种方案实现,不过实际上只能算两种。

曾经在面试时我还被问到过这个问题~

今天的文章是属于理论知识,Talk is cheap,Show me the code! 接下来两篇文章我将结合ShardingSphere-JDBC实现上述两种方案,更多关于分库分表非分片键查询的资料请关注我们其它相关文章!

(0)

相关推荐

  • MySQL分库分表后路由策略设计详情

    目录 概述 支持场景 路由策略 用户端路由key 商家路由key 概述 分库分表后设计到的第一个问题就是,如何选择路由key,应该如何对key进行路由.路由key应该在每个表中都存在而且唯一.路由策略应尽量保证数据能均匀进行分布. 如果是对大数据量进行归档类的业务可以选择时间作为路由key.比如按数据的创建时间作为路由key,每个月或者每个季度创建一个表.按时间作为分库分表后的路由策略可以做到数据归档,历史数据访问流量较小,流量都会打到最新的数据库表中. 也可以设计其与业务相关的路由key.这样

  • Mysql分库分表之后主键处理的几种方法

    目录 数据库自增 ID 设置数据库 sequence 或者表自增字段步长 UUID 系统当前时间戳+XXX Snowflake 算法 数据库自增 ID 搞一个数据库,什么也不干,就用于生成主键. 你的系统里每次得到一个 id,都需要往那个专门生成主键的数据库中通过插入获取一个自增的ID,拿到这个 id 之后再往对应的分库分表里去写入. 优点:方便简单. 缺点:单库生成自增 id,要是高并发的话,就会有瓶颈的:如果你硬是要改进一下,那么就专门开一个服务出来,这个服务每次就拿到当前 id 最大值,然

  • MySQL 分库分表的项目实践

    目录 一.为什么要分库分表 二.库表太大产生的问题 三.垂直拆分 1. 垂直分库 2. 垂直分表 四.水平分库分表 一.为什么要分库分表 数据库架构演变 刚开始多数项目用单机数据库就够了,随着服务器流量越来越大,面对的请求也越来越多,我们做了数据库读写分离, 使用多个从库副本(Slave)负责读,使用主库(Master)负责写,master和slave通过主从复制实现数据同步更新,保持数据一致.slave 从库可以水平扩展,所以更多的读请求不成问题 但是当用户量级上升,写请求越来越多,怎么保证数

  • MySQL分库分表的几种方式

    目录 一.为什么要分库分表 二.什么是分库分表 三.分库分表的几种方式 1.垂直拆分 2. 水平拆分 四.分库分表带来的问题 五.分库分表技术如何选型 一.为什么要分库分表 如果一个网站业务快速发展,那这个网站流量也会增加,数据的压力也会随之而来,比如电商系统来说双十一大促对订单数据压力很大,Tps十几万并发量,如果传统的架构(一主多从),主库容量肯定无法满足这么高的Tps,业务越来越大,单表数据超出了数据库支持的容量,持久化磁盘IO,传统的数据库性能瓶颈,产品经理业务·必须做,改变程序,数据库

  • Sharding-Proxy分库分表和数据加密使用场景分析

    目录 Sharding-Proxy分库分表和数据加密 使用场景 配置文件讲解 server.yaml config-sharding.yaml config-encrypt.yaml 其他 使用情况 总结 Sharding-Proxy分库分表和数据加密 主要将实际项目中使用shardingshpere-proxy的经历经验,总结分享一下. 使用场景 公司规划研发了两款针对政务新媒体和数字乡村的SaaS平台,作为新的利润增长点.考虑到以后的用户数量和数据数量,决定按照租户(签约客户)进行分库分表.

  • 详解分库分表后非分片键如何查询

    目录 正文 设计一:冗余法 方法二:索引表法 方法三:基因法 小结 正文 我们知道在分库分表中对于toC业务来说,需要选择用户属性如 user_id 作为分片键,不推荐使用order_id这样的作为分片键. 那问题来了,对于订单表来说,选择了user_id作为分片键以后如何查看订单详情呢?比如下面这样一条SQL: SELECT * FROM T_ORDER WHERE order_id = 801462878019256325 由于查询条件中的order_id不是分片键,所以需要查询所有分片才能

  • mysql死锁和分库分表问题详解

    记录生产mysql的问题点. 业务场景与问题描述 请求一个外部接口时,每天的请求量在900万左右. 分为请求项目和回执这两个项目.请求是用来调用外部接口,回执是接收发送的接口. 在发送请求前会先插入数据库. 在请求后,如果接口返回调用失败,会更新数据库状态为失败. 如果发送成功,则会等待上游给出回执消息后,然后更新数据库状态. 而在生产运行过程中,半年出现过两次mysql导致的mq消费者堆积的问题. 问题分析 记录两次不同的原因导致的生产问题及原因分析. mysql死锁问题 查看mq聚合平台TP

  • springboot整合shardingjdbc实现分库分表最简单demo

    一.概览 1.1 简介 ShardingSphere-JDBC定位为轻量级 Java 框架,在 Java 的 JDBC 层提供的额外服务. 它使用客户端直连数据库,以 jar 包形式提供服务,无需额外部署和依赖,可理解为增强版的 JDBC 驱动,完全兼容 JDBC 和各种 ORM 框架. 适用于任何基于 JDBC 的 ORM 框架,如:JPA, Hibernate, Mybatis, Spring JDBC Template 或直接使用 JDBC. 支持任何第三方的数据库连接池,如:DBCP,

  • Java中ShardingSphere分库分表实战

    目录 一. 项目需求 二. 简介sharding-sphere 三. 项目实战 四. 测试 一. 项目需求 我们做项目的时候,数据量比较大,单表千万级别的,需要分库分表,于是在网上搜索这方面的开源框架,最常见的就是mycat,sharding-sphere,最终我选择后者,用它来做分库分表比较容易上手. 二. 简介sharding-sphere 官网地址: https://shardingsphere.apache.org/ ShardingSphere是一套开源的分布式数据库中间件解决方案组成

  • MariaDB Spider 数据库分库分表实践记录

    目录 分库分表 部署 MariaDB 实例 Docker 部署 虚拟机部署 MariaDB 配置 检查每个实例 配置 Spider 远程表 基准性能测试 加入后端数据库 哈希分片 根据值范围分片 根据列表分片 分库分表 一般来说,数据库分库分表,有以下做法: 按哈希分片:根据一条数据的标识计算哈希值,将其分配到特定的数据库引擎中: 按范围分片:根据一条数据的标识(一般是值),将其分配到特定的数据库引擎中: 按列表分片:根据某些字段的标识,如果符合条件则分配到特定的数据库引擎中. 分库分表的做法有

  • SpringBoot 如何使用sharding jdbc进行分库分表

    目录 基于4.0版本,Springboot2.1 在pom里确保有如下引用 里面我profiles.active了另一个 之后手工把表都建好 写个测试代码 需要注意一个坑 基于4.0版本,Springboot2.1 之前写过一篇使用sharding-jdbc进行分库分表的文章,不过当时的版本还比较早,现在已经不能用了.这一篇是基于最新版来写的. 新版已经变成了shardingsphere了,https://shardingsphere.apache.org/. 有点不同的是,这一篇,我们是采用多

  • springboot jpa分库分表项目实现过程详解

    这篇文章主要介绍了springboot jpa分库分表项目实现过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 分库分表场景 关系型数据库本身比较容易成为系统瓶颈,单机存储容量.连接数.处理能力都有限.当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库.优化索引,做很多操作时性能仍下降严重.此时就要考虑对其进行切分了,切分的目的就在于减少数据库的负担,缩短查询时间. 分库分表用于应对当前互联网常见的两个场景--大数

  • 详解在.net core中完美解决多租户分库分表的问题

    前几天有人想做一个多租户的平台,每个租户一个库,可以进行水平扩展,应用端根据登录信息,切换到不同的租户库 计划用ef core实现,他们说做不出来,需要动态创建dbContext,不好实现 然而这个使用CRL很轻松就能解决了 以下为演示数据库,有两个库testdb和testdb2,查询结果如下 目标: 根据传入登录信息连不不同的库,查询返回结果,如登录人为01,返回d1.default,登录人为02 返回 d2.default 实际上这个需求就是分库分表的实现,通过设置数据库/表映射关系,根据传

  • Java基于ShardingSphere实现分库分表的实例详解

    目录 一.简介 二.项目使用 1.引入依赖 2.数据库 3.实体类 4.mapper 5.yml配置 6.测试类 7.数据 一.简介   Apache ShardingSphere 是一套开源的分布式数据库解决方案组成的生态圈,它由 JDBC.Proxy 和 Sidecar(规划中)这 3 款既能够独立部署,又支持混合部署配合使用的产品组成. 它们均提供标准化的数据水平扩展.分布式事务和分布式治理等功能,可适用于如 Java 同构.异构语言.云原生等各种多样化的应用场景.   Apache Sh

随机推荐