Redis数据库中实现分布式锁的方法

分布式锁是一个在很多环境中非常有用的原语,它是不同进程互斥操作共享资源的唯一方法。有很多的开发库和博客描述如何使用Redis实现DLM(Distributed Lock Manager),但是每个开发库使用不同的方式,而且相比更复杂的设计与实现,很多库使用一些简单低可靠的方式来实现。

这篇文章尝试提供更标准的算法来使用Redis实现分布式锁。我们提出一种算法,叫做Relock,它实现了我们认为比vanilla单一实例方式更安全的DLM(分布式锁管理)。我们希望社区分析它并提供反馈,以做为更加复杂或替代设计的一个实现。

实现

在说具体算法之前,下面有一些具体的实现可供参考.

安全和活跃性保证

从有效分布式锁的最小保证粒度来说,我们的模型里面只用了3个属性,具体如下:

1. 属性安全: 互斥行.在任何时候,只有一个客户端可以获得锁.

2. 活跃属性A: 死锁自由. 即使一个客户端已经拥用了已损坏或已被分割资源的锁,但它也有可能请求其他的锁.

3. 活跃属性B:容错. 只要大部分Redis节点可用, 客户端就可以获得和释放锁.

为何基于容错的实现还不够

要理解我们所做的改进,就要先分析下当前基于Redis的分布式锁的做法。

使用Redis锁住资源的最简单的方法是创建一对key-value值。利用Redis的超时机制,key被创建为有一定的生存期,因此它最终会被释放。而当客户端想要释放时,直接删除key就行了。

一般来说这工作得很好,但有个问题: 这是系统的一个单点。如果Redis主节点挂了呢?当然,我们可以加个子节点,主节点出问题时可以切换过来。不过很可惜,这种方案不可行,因为Redis的主-从复制是异步的,我们无法用其实现互斥的安全特性。

这明显是该模型的一种竞态条件:

  • 客户端A在主节点获得了一个锁。
  • 主节点挂了,而到从节点的写同步还没完成。
  • 从节点被提升为主节点。
  • 客户端B获得和A相同的锁。注意,锁安全性被破坏了!

有时候,在某些情况下这反而工作得很好,例如在出错时,多个客户端可以获得同一个锁。如果这正好是你想要的,那就可以使用主-从复制的方案。否则,我们建议使用这篇文章中描述的方法。

单实例的正确实现方案

在尝试解决上文描述的单实例方案的缺陷之前,先让我们确保针对这种简单的情况,怎么做才是无误的,因为这种方案对某些程序而言也是可以接受的,而且这也是我们即将描述的分布式方案的基础。

为了获取锁,方法是这样的:
 

代码如下:

SET resource_name my_random_value NX PX 30000

这条指令将设置key的值,仅当其不存在时生效(NX选项), 且设置其生存期为30000毫秒(PX选项)。和key关联的value值是"my_random_value"。这个值在所有客户端和所有加锁请求中是必须是唯一的。

使用随机值主要是为了能够安全地释放锁,这要同时结合这么个处理逻辑:删除key值当且仅当其已存在并且其value值是我们所期待的。看看以下lua代码:
 

代码如下:

if redis.call("get",KEYS[1]) == ARGV[1] then
    return redis.call("del",KEYS[1])
else
    return 0
end

这么做很重要,可以避免误删其他客户端创建的锁。例如某个客户端获得了一个锁,但它的处理时长超过了锁的有效时长,之后它删除了这个锁,而此时这个锁可能又被其他客户端给获得了。仅仅做删除是不够安全的,很可能会把其他客户端的锁给删了。结合上面的代码,每个锁都有个唯一的随机值,因此仅当这个值依旧是客户端所设置的值时,才会去删除它。

那么应该怎样生成这个随机值呢?我们使用的是从/dev/urandom读取的20个字节,但你也可以找个更简单的方法,只要能满足任务就行。例如,可以使用/dev/urandom初始化RC4算法,然后用其产生随机数流。更简单的方法是组合unix时间戳和客户端ID, 这并不安全,但对很多环境而言也够用了。

我们所说的key的时间,是指”锁的有效时长“. 它代表两种情况,一种是指锁的自动释放时长,另一种是指在另一个客户端获取锁之前某个客户端占用这个锁的时长,这被限制在从锁获取后开始的一段时间窗口内。

现在我们已经有好的办法获取和释放锁了。在单实例非分布式系统中,只要保证节点没挂掉,这个方法就是安全的。那么让我们把这个概念扩展到分布式的系统中吧,那里可没有这种保证。

Redlock 算法

在此算法的分布式版本中,我们假设有N个Redis主节点。这些节点是相互独立的,因此我们不使用复制或其他隐式同步机制。我们已经描述过在单实例情况下如何安全地获取锁。我们也指出此算法将使用这种方法从单实例获取和释放锁。在以下示例中,我们设置N=5(这是个比较适中的值),这样我们需要在不同物理机或虚拟机上运行5个Redis主节点,以确保它们的出错是尽可能独立的。

为了获取锁,客户端执行以下操作:

  • 获取当前时间,以毫秒为单位。
  • 以串行的方式尝试从所有的N个实例中获取锁,使用的是相同的key值和相同的随机value值。在从每个实例获取锁时,客户端会设置一个连接超时,其时长相比锁的自动释放时间要短得多。例如,若锁的自动释放时间是10秒,那么连接超时大概设在5到50毫秒之间。这可以避免当Redis节点挂掉时,会长时间堵住客户端:如果某个节点没及时响应,就应该尽快转到下个节点。
  • 客户端计算获取所有锁耗费的时长,方法是使用当前时间减去步骤1中的时间戳。当且仅当客户端能从多数节点(至少3个)中获得锁,并且耗费的时长小于锁的有效期时,可认为锁已经获得了。
  • 如果锁获得了,它的最终有效时长将重新计算为其原时长减去步骤3中获取锁耗费的时长。
  • 如果锁获取失败了(要么是没有锁住N/2+1个节点,要么是锁的最终有效时长为负数),客户端会对所有实例进行解锁操作(即使对那些没有加锁成功的实例也一样)。

算法是异步的?

算法依赖于这样一个假定,它在处理的时候不是(基于)同步时钟的,每个处理中仍然使用的是本地的时间,它只是大致地以同样地速率运行,这样它就会有一个小的错误,与之相比会有一个小的自动开合的时钟时间。这个假设很像真正世界的电脑:每一台电脑有一个本地时钟,通常我们使用不同的电脑会有一个很小的时钟差。

基于这个观点,我们需要更好地指明我们共同的互斥法则:这是保证客户端能长时间保持状态锁定,其将会终止它们在有效时间内的工作(在步骤3中获得),减去一些时间(在处理时时间差时减去了一些毫秒用来补偿)。

想要了解关于系统需要一个范围的时间差的内容可以获取更多的信息,这篇论文是很好的参考: Leases: an efficient fault-tolerant mechanism for distributed file cache consistency.

失败时重试

当客户端无法获取锁时,它应该在一个随机延迟后重试,从而避免多个客户端同时试图获取锁,相对应同一的同时请求(这可能会导致崩溃,没人会胜出)。同样的,客户端在大多数场合下尝试获取锁的速度越快,崩溃的窗口就越少(重试的需要也越少),所以实际情况下客户端应尝试采用复用方式发送SET命令到多个实例。

强调客户在获取主锁失败是值得的,释放(或部分)以尽快获得锁,这样没有必要为获取锁锁而去等待键到期(但是如果网络分区发生变化时客户端不能与Redis通信的情况下,需要显性提示和等待超时)。

释放锁

释放锁是简单的,只需要释放所有实例的锁即可,尽管客户端认为有能力成功锁住一个给出的实例。

安全参数

要问一个算法是安全的么?那么可以尝试着去理解在不同的情景下发生了什么。我们以假设客户端在大多数情况下都能获得锁来开始,所有的实例都包含相同生存周期的键。由于键是在不同的时间设定的,所以键也将在不同的时间超时。然而,如果第一个节点最迟在t1时刻建立(即样品接触的第一服务器之前),上一个键最迟在T2时刻建立(从上一个服务器获得回复的时间)。可以确定的是第一个键在超时之前将生存至少MIN_VALIDITY=TTL-(T2-T1)-CLOCK_DRIFT。所有其他的钥匙将到期后,钥匙将至少在这一次同时设置。

在过半的键被设置这段时间里,另一个客户端无法获得锁,如果N/2+1个键已经存在,N/2+1 SET NX操作将不能成功。所以一个锁被获取,同一时刻被重复获取是不可能的(违反互斥性)。

然而我们还想让多个客户端在获取锁的时候不能同时成功。

如果一个客户端锁定大部分实例的时间超过了锁的最大有效时间(TTL基本设定) ,它将考虑锁无效了,并解锁。所以我们仅考虑在有效时间内大部分实例获得锁的情况。这种情况已经在上文中讨论过, 对于MIN_VALIDITY没有客户端会重新获取锁。所以只有当锁大多数实例的时间超过TTL时间时,多客户端才能同时锁住N/2+1个实例(在步骤2的“时间”即将结束时),让锁失效。

你是否能提供一个形式化的证明,指出现存的足够相似的算法,或找出些bug? 那我们将感激不尽。
存活性证明

系统的存活性基于以下三个主要特性:

  1. 锁的自动释放(key会到期): 最终所有的key将可以被重新锁住;
  2. 一般来说,客户端如果没有成功获得锁,或者获得了锁并且完成了工作,都会及时释放锁,使得我们无需等待key自动释放以重新获得。
  3. 当客户端重新获取锁之前,它会等待一段时间,这段时间比获取锁本身要长得多,这是为了尽量降低资源竞争引起的脑裂条件的概率。

然而,在网络割裂的情况下,我们得付出等同于"TTL"时间的可用性代价,如果网络持续割裂,我们就得无限的付出这个代价。这发生于当客户端获取了一个锁,而在删除锁之前网络断开了。

基本上,如果网络无限期地持续割裂,那系统将无限期地不可用。

性能、故障恢复和文件同步

许多用户使用Redis作为一个需要高性能的加锁服务器,可以根据延迟动态的获取和释放锁,每秒可以成功执行大量的获取/释放锁操作。为了满足这些需求,一种多路复用策略是协同N台 Redis服务器减少延迟(或者叫做穷人的互助,也就是说,将端口置为non-blocking模式,发送所有的命令,延迟读出所有的命令,假定客户端和每个Redis实例的往返时间是相似的)。

然而,如果我们旨在实现一种故障系统的恢复模式,这里有另一种与持久性相关的思路。

考虑这个基本问题,假定我们完全没有配置Redis的持久性。一个客户端需要锁定5个实例中的3个。其中一个允许客户端获取的锁重新启动,虽然我们可以再次为一些资源锁定3个实例,但其它的客户端同样可以锁定它,违反了排他锁安全性。

如果我们启用AOF持久性,情况就会得到相当的改善。例如我们可以通过发送 SHUTDOWN升级一个服务器并且重启它。因为Redis的期限是通过语义设置的,所以服务器关闭的情况下虚拟时间仍然会流逝,我们所有的需求都得到了满足。不管怎样所有事务都会正常运转只要服务器完全关闭。如果电源中断会怎样?如果Redis进行了相关配置,默认情况下每秒文件都会同步写入磁盘,很有可能在重启后我们的数据会丢失。理论上,如果我们想在任何一种实例重启后保证锁的安全性,我们需要确保在持久性配置中设置fsync=always。这将会在同等级别的CP系统上损失性能,传统上这种方式用来更安全的分配锁。

不管怎样事情比我们初次瞥见他们看起来好些。基本上算法的安全性得到保留,就算是当一个实例在故障后重启,它也将不再参与任何当前活跃的锁的分配。因此当实例重启时,当前所有活动锁的设置将从锁定的实例中获取除它重新加入系统。

为了保证这一点,我们只需要做一个实例,在超过最大TTL后,崩溃,不可用,那么就需要时间去获取所有存在着的锁的钥匙,当实例崩溃时,其就会变得无效,会被自动释放。

使用延时重启可以基本上实现安全,甚至不需要利用任何Redis的持久化特性,但是这存在着另外的副作用。举例来说,如果大量的实例崩溃,系统变得全局不可用,那么TTL(这里的全局意味着根本就没有资源可用,在这个时间内所有的资源都会被锁定)。

让算法更可靠: 扩展锁

如果客户工作的执行是由小步骤组成,那么它就可以在默认时间里默认使用更小的锁,并扩展了算法去实现的一个锁的扩展机制。当锁的有效性接近于一个低值,那么通常是客户端在运算中处于居中位置。当锁被取得时,可能扩展的锁通过发送一个Lua脚本到所有的实例,这个实例是扩展TTL的钥匙,如果钥匙存在,那么它的值就是客户端复制的随机值。

客户端应该仅考虑锁的重新取得,如果它可以被扩展,锁就会在有效时间内进入大量实例(基本的算法使用非常类似于获取锁的使用)。

虽然这不是从技术上去改变算法,但是无论如何尝试获取锁的最大次数是需要限制的,否则的话会违反活跃性中的一个属性。

(0)

相关推荐

  • Redis实现分布式锁的几种方法总结

    Redis实现分布式锁的几种方法总结 分布式锁是控制分布式系统之间同步访问共享资源的一种方式.在分布式系统中,常常需要协调他们的动作.如果不同的系统或是同一个系统的不同主机之间共享了一个或一组资源,那么访问这些资源的时候,往往需要互斥来防止彼此干扰来保证一致性,在这种情况下,便需要使用到分布式锁. 我们来假设一个最简单的秒杀场景:数据库里有一张表,column分别是商品ID,和商品ID对应的库存量,秒杀成功就将此商品库存量-1.现在假设有1000个线程来秒杀两件商品,500个线程秒杀第一个商品,

  • redis实现加锁的几种方法示例详解

    前言 本文主要给大家介绍了关于redis实现加锁的几种方法,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 1. redis加锁分类 redis能用的的加锁命令分表是INCR.SETNX.SET 2. 第一种锁命令INCR 这种加锁的思路是, key 不存在,那么 key 的值会先被初始化为 0 ,然后再执行 INCR 操作进行加一. 然后其它用户在执行 INCR 操作进行加一时,如果返回的数大于 1 ,说明这个锁正在被使用当中. 1. 客户端A请求服务器获取key的值为1表示

  • 基于Redis实现分布式锁以及任务队列

    一.前言 双十一刚过不久,大家都知道在天猫.京东.苏宁等等电商网站上有很多秒杀活动,例如在某一个时刻抢购一个原价1999现在秒杀价只要999的手机时,会迎来一个用户请求的高峰期,可能会有几十万几百万的并发量,来抢这个手机,在高并发的情形下会对数据库服务器或者是文件服务器应用服务器造成巨大的压力,严重时说不定就宕机了,另一个问题是,秒杀的东西都是有量的,例如一款手机只有10台的量秒杀,那么,在高并发的情况下,成千上万条数据更新数据库(例如10台的量被人抢一台就会在数据集某些记录下 减1),那次这个

  • redis中使用java脚本实现分布式锁

    redis被大量用在分布式的环境中,自然而然分布式环境下的锁如何解决,立马成为一个问题.例如我们当前的手游项目,服务器端是按业务模块划分服务器的,有应用服,战斗服等,但是这两个vm都有可能同时改变玩家的属性,这如果在同一个vm下面,就很容易加锁,但如果在分布式环境下就没那么容易了,当然利用redis现有的功能也有解决办法,比如redis的脚本. redis在2.6以后的版本中增加了Lua脚本的功能,可以通过eval命令,直接在RedisServer环境中执行Lua脚本,并且可以在Lua脚本中调用

  • Redis上实现分布式锁以提高性能的方案研究

    背景: 在很多互联网产品应用中,有些场景需要加锁处理,比如:秒杀,全局递增ID,楼层生成等等.大部分是解决方案基于DB实现的,Redis为单进程单线程模式,采用队列模式将并发访问变成串行访问,且多客户端对Redis的连接并不存在竞争关系. 项目实践 任务队列用到分布式锁的情况比较多,在将业务逻辑中可以异步处理的操作放入队列,在其他线程中处理后出队,此时队列中使用了分布式锁,保证入队和出队的一致性.关于redis队列这块的逻辑分析,我将在下一次对其进行总结,此处先略过. 接下来对redis实现的分

  • 详解Java如何实现基于Redis的分布式锁

    前言 单JVM内同步好办, 直接用JDK提供的锁就可以了,但是跨进程同步靠这个肯定是不可能的,这种情况下肯定要借助第三方,我这里实现用Redis,当然还有很多其他的实现方式.其实基于Redis实现的原理还算比较简单的,在看代码之前建议大家先去看看原理,看懂了之后看代码应该就容易理解了. 我这里不实现JDK的java.util.concurrent.locks.Lock接口,而是自定义一个,因为JDK的有个newCondition方法我这里暂时没实现.这个Lock提供了5个lock方法的变体,可以

  • Redis数据库中实现分布式锁的方法

    分布式锁是一个在很多环境中非常有用的原语,它是不同进程互斥操作共享资源的唯一方法.有很多的开发库和博客描述如何使用Redis实现DLM(Distributed Lock Manager),但是每个开发库使用不同的方式,而且相比更复杂的设计与实现,很多库使用一些简单低可靠的方式来实现. 这篇文章尝试提供更标准的算法来使用Redis实现分布式锁.我们提出一种算法,叫做Relock,它实现了我们认为比vanilla单一实例方式更安全的DLM(分布式锁管理).我们希望社区分析它并提供反馈,以做为更加复杂

  • 在Redis数据库中实现分布式速率限制的方法

    问题 在许多应用中,对昂贵的资源的访问必须加以限制,此时速率限制是必不可少的.许多现代网络应用程序在多个进程和服务器上运行,状态需要被共享.一个理想的解决方案应该是高效. 快捷的,而不是依赖于被绑定到特定客户端的单个应用程序服务器(由于负载平衡) 或本身持有任何状态. 解决方案 实现这一目标的一个简单有效的方法就是使用 Redis, 它有很多有用的数据结构和功能, 尽管实现速率限制只需要2个功能用: 一.在某个具体的键值上递增一个整数,二.给这个键值设置过期时间. 因为redis 有个单一的事件

  • SpringBoot中使用redis做分布式锁的方法

    一.模拟问题 最近在公司遇到一个问题,挂号系统是做的集群,比如启动了两个相同的服务,病人挂号的时候可能会出现同号的情况,比如两个病人挂出来的号都是上午2号.这就出现了问题,由于是集群部署的,所以单纯在代码中的方法中加锁是不能解决这种情况的.下面我将模拟这种情况,用redis做分布式锁来解决这个问题. 1.新建挂号明细表 2.在idea上新建项目 下图是创建好的项目结构,上面那个parent项目是其他项目不用管它,和新建的没有关系 3.开始创建controller,service,dao(mapp

  • 基于Redis实现分布式锁的方法(lua脚本版)

    1.前言 在Java中,我们通过锁来避免由于竞争而造成的数据不一致问题.通常我们使用synchronized .Lock来实现.但是Java中的锁只能保证在同一个JVM进程内中可用,在跨JVM进程,例如分布式系统上则不可靠了. 2.分布式锁 分布式锁,是一种思想,它的实现方式有很多,如基于数据库实现.基于缓存(Redis等)实现.基于Zookeeper实现等等.为了确保分布式锁可用,我们至少要确保锁的实现同时满足以下四个条件 互斥性:在任意时刻,只有一个客户端能持有锁. 不会发生死锁:即使客户端

  • 使用Redis实现分布式锁的方法

    目录 Redis 中的分布式锁如何使用 分布式锁的使用场景 使用 Redis 来实现分布式锁 使用 set key value px milliseconds nx 实现 SETNX+Lua 实现 使用 Redlock 实现分布式锁 锁的续租 看看 SETEX 的源码 为什么 Redis 可以用来做分布式锁 分布式锁如何选择 总结 参考 Redis 中的分布式锁如何使用 分布式锁的使用场景 为了保证我们线上服务的并发性和安全性,目前我们的服务一般抛弃了单体应用,采用的都是扩展性很强的分布式架构.

  • Redis实现分布式锁的方法示例

    之前我们使用的定时任务都是只部署在了单台机器上,为了解决单点的问题,为了保证一个任务,只被一台机器执行,就需要考虑锁的问题,于是就花时间研究了这个问题.到底怎样实现一个分布式锁呢? 锁的本质就是互斥,保证任何时候能有一个客户端持有同一个锁,如果考虑使用redis来实现一个分布式锁,最简单的方案就是在实例里面创建一个键值,释放锁的时候,将键值删除.但是一个可靠完善的分布式锁需要考虑的细节比较多,我们就来看看如何写一个正确的分布式锁. 单机版分布式锁 SETNX 所以我们直接基于 redis 的 s

  • mysql居然还能实现分布式锁的方法

    前言 之前的文章中通过电商场景中秒杀的例子和大家分享了单体架构中锁的使用方式,但是现在很多应用系统都是相当庞大的,很多应用系统都是微服务的架构体系,那么在这种跨jvm的场景下,我们又该如何去解决并发. 单体应用锁的局限性 在进入实战之前简单和大家粗略聊一下互联网系统中的架构演进. 在互联网系统发展之初,消耗资源比较小,用户量也比较小,我们只部署一个tomcat应用就可以满足需求.一个tomcat我们可以看做是一个jvm的进程,当大量的请求并发到达系统时,所有的请求都落在这唯一的一个tomcat上

  • Java中实现分布式定时任务的方法

    定时器Scheduler在平时使用比较频繁,在springboot中,配置好@Scheduled和@EnableScheduling之后,定时器就能正常执行,实现定时任务的功能. 但是在这样的情况下:如果开发的服务需要水平部署实现负载均衡,那么定时任务就会同时在多个服务实例上运行,那么一方面,可能由于定时任务的逻辑处理需要访问公共资源从而造成并发问题:另一方面,就算没有并发问题,那么一个同样的任务多个服务实例同时执行,也会造成资源的浪费.因此需要一种机制来保证多个服务实例之间的定时任务正常.合理

  • 如何操作Redis和zookeeper实现分布式锁

    如何操作Redis和zookeeper实现分布式锁 在分布式场景下,有很多种情况都需要实现最终一致性.在设计远程上下文的领域事件的时候,为了保证最终一致性,在通过领域事件进行通讯的方式中,可以共享存储(领域模型和消息的持久化数据源),或者做全局XA事务(两阶段提交,数据源可分开),也可以借助消息中间件(消费者处理需要能幂等).通过Observer模式来发布领域事件可以提供很好的高并发性能,并且事件存储也能追溯更小粒度的事件数据,使各个应用系统拥有更好的自治性. 1.分布式锁 分布式锁一般用在分布

  • 详解使用Redis SETNX 命令实现分布式锁

    使用Redis的 SETNX 命令可以实现分布式锁,下文介绍其实现方法. SETNX命令简介 命令格式 SETNX key value 将 key 的值设为 value,当且仅当 key 不存在. 若给定的 key 已经存在,则 SETNX 不做任何动作. SETNX 是SET if Not eXists的简写. 返回值 返回整数,具体为 - 1,当 key 的值被设置 - 0,当 key 的值没被设置 例子 redis> SETNX mykey "hello" (integer

随机推荐