架构思维之缓存雪崩的灾难复盘

2025-01-31 10:41:14

1 真实案例

云办公系统用户实时信息查询功能优化发布之后，系统发生宕机事件（系统挂起，页面无法加载）。

1.1 背景

我们IM原有的一个功能，当鼠标移动到用户头像的时候，会显示出用户的基本信息。信息比较简单，只包含简单的用户名、昵称、性别、邮箱、电话等基本数据，

这是一个典型的数据查询，大概过程如下左侧，访问用户基本信息的时候会先去Redis中查一下，如果不存在，就把大约2W左右的用户数据一次性取出来，保存在Redis中，因为用户基本信息在同一张表上，用户信息表的数据量也很少，所以一直也没什么问题。

过程如下图左侧所示。

后续对功能做了优化，原有采集的信息除了用户的基本信息之外，还采集了教育经历、工作经历、所获勋章等。

这些信息存储在不同的表里面，所以采集过程是一个复杂的联表查询，特别是有些基础表数据量比较大，执行效率也是比较慢的。

如果把所有用户全部取出来并存储在一个Redis节点中，明显已经不适用，一个是批量查询导致数据库执行效率慢，一个是Redis单节点数据太大。

所以开发同学做了下优化，每次只取单个用户的综合信息存在Redis中，一个用户建一个缓存，如上图右侧所示。

1.2 问题处理

这种做法看着没啥问题，当晚发布后，在第二天的上午10点~11点就发生了系统瓶颈卡顿，最后挂起的情况，数据库的内存、CPU全部飙上去了。

第一时间的处理方法是降级，程序回滚到之前只提供基本信息的阶段，其他的前端默认显示空信息。接着就是对问题进行分析了，后确认原因是产生了缓存雪崩了。

新发布的系统，缓存池是空的，在早上10点高峰期的时候，大量的人员到IM上进行访问，系统开始初次建立每个人的缓存信息，大量的请求查询不到缓存，直接透过缓存池投向数据库，造成瞬时DB请求量井喷。这是典型的缓存雪崩了。

同时因为，失效时间相近（8小时失效），所以也有潜在的缓存雪崩。

应急处理方案：适当处理缓存的机制，采用布隆过滤器、空初始值、随机缓存失效时间方式来预防缓存击穿和缓存雪崩的产生。

最终解决方案：改回原来缓存全公司员工信息的方式，根据执行计划和SlowLog，优化获取员工信息的SQL脚本，去掉不需要的字段和无意义的连接。

2 缓存雪崩

2.1 概念

缓存雪崩是指大量的key设置了相同的过期时间，导致在缓存在同一时刻全部失效，造成瞬时DB请求量大、压力骤增，引起雪崩。

上面的哪个问题，初次访问的数据都是未建立缓存的，跟同时失效的情况一样，当峰值期到来的时候，会大量的请求查询不到缓存，直接透过缓存池投向数据库，造成瞬时DB请求量井喷。

2.2 解决方案分析

2.2.1 缓存集群+数据库集群

在系统容量设计的时候，应该能够预见后期会有大量的请求，所以在发生雪崩前对缓存集群实现高可用，如果是使用 Redis，可以使用主从+哨兵，Redis Cluster 来避免 Redis 全盘崩溃的情况。

同样的，也需要对数据库进行高可用保障，因为透过缓存之后，真正考验的是数据库的抗压能力。所以 1主N从甚至数据库集群是我们需要重点去考虑的。

2.2.2 适当的限流、降级

可以使用 Hystrix进行限流 + 降级，比如像上面那种情况，一下子来了1W个请求，不是当前系统的吞吐能力能够承受的，假设单秒TPS的能力只能是 5000个，那么剩余的 5000 请求就可以走限流逻辑。

可以设置一些默认值，然后调用我们自己降级逻辑去FallBack，保护最后的 MySQL 不会被大量的请求挂起。除了Hystrix之外，阿里的Sentinel 和 Google的RateLimiter 都是不错的选择。

Sentinel 漏桶算法

RateLimiter 令牌桶算法

另外可以考虑使用用本地缓存来进行缓冲，在 Redis Cluster 不可用的时候，不至于全线崩溃。

2.2.3 随机过期时间

可以给缓存设置过期时间时加上一个随机值时间，使得每个key的过期时间分布开来，不会集中在同一时刻失效。

随机值我们团队的做法是：n * 3/4 + n * random() 。所以，比如你原本计划对一个缓存建立的过期时间为8小时，那就是6小时 + 0~2小时的随机值。

这样保证了均匀分布在 6~8小时之间。如图：

2.2.4 缓存预热

类似上面的那个案例，并不是还没过期，而是新功能发布，压根还没建设过缓存，所以可以在峰值期之前先做好部分缓存，避免瞬时压力太大。

所以如果10点是峰值期，那么可以预先在8~10点期间，可以逐渐的把大部分缓存建立起来。如图：

3 缓存穿透

3.1 概念

缓存穿透是指访问一个不存在的key，缓存不起作用，请求会穿透到DB，流量井喷时会导致DB挂掉。

比如我们查询用户的信息，程序会根据用户的编号去缓存中检索，如果找不到，再到数据库中搜索。如果你给了一个不存在的编号：XXXXXXXX，那么每次都比对不到，就透过缓存进入数据库。

这样风险很大，如果因为某些原因导致大量不存在的编号被查询，甚至被恶意伪造编号进行攻击，那将是灾难。

3.2 解决方案分析

3.2.1 缓存空值

发生穿透的原因是缓存中没有存储这些空数据的key，或者压根这个数据的key是不会存在的，从而导致每次查询都进入数据库中。

我们就可以将这些key的值设置为null，并写到缓存池中。后面再出现查询这个key 的请求的时候，直接返回null，这样就在缓存池中就被判断返回了，压力在缓存层中，不会转移到数据库上。

3.2.2 BloomFilter

我们称作布隆过滤器，BloomFilter 类似于一个hbase set 用来判断某个元素（key）是否存在于某个集合中。

这种方式在大数据场景应用比较多，比如 Hbase 中使用它去判断数据是否在磁盘上。还有在爬虫场景判断url 是否已经被爬取过。

这种方案可以加在第一种方案中，在缓存之前在加一层 BloomFilter ，把存在的key记录在BloomFilter中，在查询的时候先去 BloomFilter 去查询 key 是否存在，如果不存在就直接返回，存在再走查缓存，投入数据库去查询，这样减轻了数据库的压力。

流程图如下：

3.2.3 两种方案的选择判断

前面说过，可能会存在一些恶意攻击，伪造出大量不存在的key ，这种情况下如果我们如果采用缓存空值的办法，就会产生大量不存在key的null数据。显然是不合适的，这时我们完全可以使用第二种方案进行过滤掉这些key。

所以，判断的依据是：

针对key非常多、请求重复率比较低的数据，我们就没有必要进行缓存，使用 BloomFilter 直接过滤掉。

而对于空数据的key有限的，重复率比较高的，我们则可以采用缓存空值的办法进行处理。

4 缓存击穿

4.1 概念

一个存在的key，在缓存过期的一刻，同时有大量的请求，这些请求都会击穿到DB，造成瞬时DB请求量大、压力骤增。（注意跟上面两种的区别）

4.2 解决方案

4.2.1 锁的方式

分布式锁场景，在访问key之前，采用SETNX（set if not exists）来设置另一个短期key来锁住当前key的访问，访问结束再删除该短期key。

这种现象是多个线程同时去查询数据库的这条数据，那么我们可以在第一个查询数据的请求上使用一个互斥锁来锁住它。

其他的线程走到这一步拿不到锁就等着，等第一个线程查询到了数据，然后做缓存。后面的线程进来发现已经有缓存了，就直接走缓存。

锁不好的地方就是在其他线程在拿不到锁的时候就等待，这个会造成系统整体吞吐量降低，用户体验度也不好。

4.2.2 空初始值

这是一种短暂降级的方式：

如果一个缓存失效的时候，有无数个请求狂奔而来，而第一个请求从进入缓存池，判空，再到数据库检索，再查询出结果并返回设置缓存的这个过程里，缓存是不存在的。

这个就很危险，超高并发下这个短暂的过程足已让千千万万请求投向数据库。更别提这可能是个慢查询，整个过程可能长达2s以上，那对数据库是一种非常大的伤害。

业内有一种做法叫做空初始值，短暂的局部降级来保证整个数据库系统不被击穿。大概流程如下：

可以看出，整个过程中我们牺牲了A、B、C、D的请求，他们拿回了一个空值或者默认值，但是这局部的降级却保证整个数据库系统不被拥堵的请求击穿。

这也是我面试中最喜欢问候选人的缓存类问题。

以上就是架构思维之缓存雪崩的灾难复盘的详细内容，更多关于缓存雪崩灾难的资料请关注我们其它相关文章！

详解缓存穿透击穿雪崩解决方案

一:前言设计一个缓存系统,不得不要考虑的问题就是:缓存穿透.缓存击穿与失效时的雪崩效应. 二:缓存穿透缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到存储层去查询,失去了缓存的意义.在流量大时,可能DB就挂掉了,要是有人利用不存在的key频繁攻击我们的应用,这就是漏洞. 三:解决方案有很多种方法可以有效地解决缓存穿透问题,最常见的则是采用布隆过滤器,将所有可能存在的数据哈希到一个足
JAVA面试题之缓存击穿、缓存穿透、缓存雪崩的三者区别

目录调用链路缓存击穿含义: 解决方案: 缓存穿透含义: 解决方案: 缓存雪崩含义: 解决方案: 前端发起一个请求,经历过三次握手后连接到服务器,想要获取相应的数据,那么服务器接入了缓存中间件后,从接收到Request到最后的Response,到底是怎样的一个流程呢?以下探讨忽略掉参数校验等逻辑,直接讲最核心的链路. 调用链路一个请求Request过来,服务器首先和缓存中间件建立连接,传输对应key到缓存中间件中获取相对应的数据,服务器拿到返回的结果后,判断返回的结果是否有数据,如果有
详解缓存穿透/击穿/雪崩原理及其解决方案

目录 1. 简介 2. 缓存穿透 2.1描述 2.2 解决方案 3. 缓存击穿 3.1 描述 3.2 解决方案 4. 缓存雪崩 4.1 描述 4.1 解决方案 5. 布隆过滤器 5.1 描述 5.2 数据结构 5.3 "一定不在集合中" 5.4 "可能在集合中" 5.5 "删除困难" 5.6 为什么不使用HashMap呢? 1. 简介如图所示,一个正常的请求 1.客户端请求张铁牛的博客. 2.服务首先会请求redis,查看请求的内容是否存在.
Redis中缓存穿透/击穿/雪崩问题和解决方法

目录缓存问题 1. 缓存穿透---查不到解决方案 2. 缓存击穿---量太大,缓存过期解决方案 3. 缓存雪崩解决方案缓存问题 1. 缓存穿透---查不到缓存穿透是指用户想查询一个数据,发现Redis中没有,也就是缓存没有命中,就向持久性数据库发起查询,发现数据库也没有这个数据,于是查询失败了. 当用户请求很多的情况下,缓存没有命中,数据库也没有数据,会给数据库造成很大的压力,这就是缓存穿透. 解决方案第一种解决方案:使用布隆过滤器使用布隆过滤器之后,将存储的数据放入布隆过滤器中
架构思维之缓存雪崩的灾难复盘

目录 1 真实案例 1.1 背景 1.2 问题处理 2 缓存雪崩 2.1 概念 2.2 解决方案分析 2.2.1 缓存集群+数据库集群 2.2.2 适当的限流.降级 2.2.3 随机过期时间 2.2.4 缓存预热 3 缓存穿透 3.1 概念 3.2 解决方案分析 3.2.1 缓存空值 3.2.2 BloomFilter 3.2.3 两种方案的选择判断 4 缓存击穿 4.1 概念 4.2 解决方案 4.2.1 锁的方式 4.2.2 空初始值 1 真实案例云办公系统用户实时信息查询功能优化发布之后
从架构思维角度分析高并发下幂等性解决方案

目录 1 背景 2 幂等性概念 3 幂等性问题的常见解决方案 3.1 查询操作和删除操作 3.2 使用唯一索引或者唯一组合索引 3.3 token机制 3.4 悲观锁 3.5 乐观锁 3.6 分布式锁 3.7 select + insert 3.8 状态机幂等 3.9 保证Api接口的幂等性 4 会议室的解决方案 5 总结 1 背景我们的云办公系统有一个会议预定模块,每个月最后一个工作日的下午三点,会启动对下个月会议室的可用预定. 公司的会议室大约200个,但是需求量远不止于此,所以会形
从架构思维角度分析分布式锁方案

目录 1 介绍 2 关于分布式锁 3 分布式锁的实现方案 3.1 基于数据库实现 3.1.1 乐观锁的实现方式 3.1.2 悲观锁的实现方式 3.1.3 数据库锁的优缺点 3.2基于Redis实现 3.2.1 基于缓存实现分布式锁 3.2.2缓存实现分布式锁的优缺点 3.3 基于Zookeeper实现 3.3.1 实现过程 3.3.2 zk实现分布式锁的优缺点 3.4 三种方案的对比总结 1 介绍前面的文章我们介绍了分布式系统和它的CAP原理:一致性(Consistency).可用性(Ava
浅谈Redis缓存雪崩解决方案

目录 1.保持缓存层的高可用 2.限流降级组件 3.缓存不过期 4.优化缓存过期时间 5.使用互斥锁重建缓存 6.异步重建缓存缓存层承载着大量的请求,有效保护了存储层.但是如果由于大量缓存失效或者缓存整体不能提供服务,导致大量的请求到达存储层,会使存储层负载增加(大量的请求查询数据库) .这就是缓存雪崩的场景; 解决缓存雪崩可以从下面的几点着手: 1.保持缓存层的高可用使用Redis哨兵模式或者Redis集群部署方式,即是个别Redis节点下线,整个缓存层依然可以使用.除此之外还可以在多个机
浅谈Redis缓存击穿、缓存穿透、缓存雪崩的解决方案

目录前言 Redis缓存使用场景 Redis缓存穿透解决方案 1.对空值缓存 2.添加参数校验 3.采用布隆过滤器 Redis缓存雪崩解决方案 1.大量热点数据同时失效带来的缓存雪崩问题 2. 服务降级 3. Redis 缓存实例发生故障宕机带来的缓存雪崩问题 Redis缓存击穿解决方案 1. 热key不过期 2. 分布式锁总结缓存击穿缓存穿透缓存雪崩前言在日常的项目中,缓存的使用场景是比较多的.缓存是分布式系统中的重要组件,主要解决在高并发.大数据场景下,热点数据访问的性能
架构与思维论设计容量的重要性

目录背景概念分析过程理解一些原理峰值QPS计算: 系统容量评估时机评估的步骤 1.分析日总访问量 2.评估平均访问量QPS 3.评估高峰区间的QPS 3.1 业务流量监控的曲线 3.2 使用二八法则计算 4.评估单实例极限承受的QPS 5.根据线上冗余度最终确认案例分析总结系统设计容量评估时机: 系统设计容量评估的步骤: 背景单位每年都会举行运动会,有一个2000m长跑的项目,大约每年报名人员为男选手40人,女选手20人,只有一条橡胶跑道.一次比赛10人齐跑,所以至少需要6场
浅谈Redis高并发缓存架构性能优化实战

目录场景1: 中小型公司Redis缓存架构以及线上问题实战场景2: 大厂线上大规模商品缓存数据冷热分离实战场景3: 基于DCL机制解决热点缓存并发重建问题实战场景4: 突发性热点缓存重建导致系统压力暴增场景5: 解决大规模缓存击穿导致线上数据库压力暴增场景6: 黑客工资导致缓存穿透线上数据库宕机场景7: 大V直播带货导致线上商品系统崩溃原因分析场景8: Redis分布式锁解决缓存与数据库双写不一致问题实战场景9: 大促压力暴增导致分布式锁串行争用问题优化场景10: 利用多级缓