Java 基于雪花算法生成分布式id

SnowFlake算法原理介绍

在分布式系统中会将一个业务的系统部署到多台服务器上,用户随机访问其中一台,而之所以引入分布式系统就是为了让整个系统能够承载更大的访问量。诸如订单号这些我们需要它是全局唯一的,同时我们基本上都会将它作为查询条件;出于系统安全考虑不应当让其它人轻易的就猜出我们的订单号,同时也要防止公司的竞争对手直接通过订单号猜测出公司业务体量;为了保证系统的快速响应那么生成算法不能太耗时。而雪花算法正好解决了这些问题。

SnowFlake 算法(雪花算法), 是Twitter开源的分布式id生成算法。其核心思想就是: 使用一个64 bit的long型的数字作为全局唯一id。它的结构如下:

下面我们来对每一部分进一步的分析:

  • 符号标识位(1位):计算机中为了区分负数(1)和正数(0),设计者将第一位做为符号位,ID通常使用正数,因此最高位固定为0;
  • 41位时间截(毫秒),这个是使用 当前时间 减去 开始时间 得到的值;因此一旦我们的算法投入使用,那么程序中设置的开始时间就不能再去随意更改了,否则将可能出现重复的id值;

由于是基于时间来实现的且只有41位,由此可以计算出该算法只能使用70年左右:(2^41)/(1000*60*60*24*365) = 69.7 年 ;

  • 10位机器ID:共计1024个节点,通常将其分为2部分:机房ID(dataCenterId) 和 机器ID(workerId);
  • 12 位序列号:毫秒内的计数,共计4098个;简单来说就是每毫秒内从0开始计算得到值;
  • 最终SnowFlake算法总结如下:整体上按照时间自增排序,并且整个分布式系统内不会产生ID 碰撞(由机房ID和机器ID作区分),并且效率较高。最多支持1024台机器,每台机器每毫秒能够生成最多4096个ID,整个集群理论上每秒可以生成 1024 * 1000 * 4096 = 42 亿个ID。

这里不要觉得每毫秒4098个ID少了,我们计算一下每台机器理论上每秒可以支持 4096*1000 = 400万左右;要知道天猫双11那么大的订单量每秒也才50万笔;因此是完全够用的。

算法实现

我们在上面已经了解了SnowFlake的算法结构,下面是Java版本的实现。注意我们在实现该算法时,不一定要死死的按照上面的来实现,可以根据自身业务情况进行定制化;比如说机器ID,对于大部分的小项目来说根本不会分啥机房,因此我们完全可以根据服务器IP来弄;同时Twitter公布的算法中最终生成的id长度为15,但是还是根据自身业务情况进行调整。比如标准的算法只支持使用70年左右,但是我们可以通过扩展长度来增加年限。

public class SnowFlakeIdWorker {

    /**
     * 开始时间戳,单位毫秒;这里是2021-06-01
     */
    private static final long TW_EPOCH = 1622476800000L;

    /**
     * 机器 ID 所占的位数
     */
    private static final long WORKER_ID_BITS = 5L;

    /**
     * 数据标识 ID 所占的位数
     */
    private static final long DATA_CENTER_ID_BITS = 5L;

    /**
     * 支持的最大机器ID,最大为31
     *
     * PS. Twitter的源码是 -1L ^ (-1L << workerIdBits);这里最后和-1进行异或运算,由于-1的二进制补码的特殊性,就相当于进行取反。
     */
    private static final long MAX_WORKER_ID = ~(-1L << WORKER_ID_BITS);

    /**
     * 支持的最大机房ID,最大为31
     */
    private static final long MAX_DATA_CENTER_ID = ~(-1L << DATA_CENTER_ID_BITS);

    /**
     * 序列在 ID 中占的位数
     */
    private static final long SEQUENCE_BITS = 12L;

    /**
     * 机器 ID 向左移12位
     */
    private static final long WORKER_ID_SHIFT = SEQUENCE_BITS;

    /**
     * 机房 ID 向左移17位
     */
    private static final long DATA_CENTER_ID_SHIFT = SEQUENCE_BITS + WORKER_ID_BITS;

    /**
     * 时间截向左移22位
     */
    private static final long TIMESTAMP_LEFT_SHIFT = SEQUENCE_BITS + WORKER_ID_BITS + DATA_CENTER_ID_BITS;

    /**
     * 生成序列的掩码最大值,最大为4095
     */
    private static final long SEQUENCE_MASK = ~(-1L << SEQUENCE_BITS);

    /**
     * 工作机器 ID(0~31)
     */
    private final long workerId;

    /**
     * 机房 ID(0~31)
     */
    private final long dataCenterId;

    /**
     * 毫秒内序列(0~4095)
     */
    private long sequence = 0L;

    /**
     * 上次生成 ID 的时间戳
     */
    private long lastTimestamp = -1L;

    /**
     * 创建 ID 生成器的方式一: 使用工作机器的序号(也就是将机房的去掉给机器ID使用),范围是 [0, 1023],优点是方便给机器编号
     *
     * @param workerId 工作机器 ID
     */
    public SnowFlakeIdWorker(long workerId) {
        // 计算最大值
        long maxMachineId = (MAX_DATA_CENTER_ID + 1) * (MAX_WORKER_ID + 1) - 1;

        if (workerId < 0 || workerId > maxMachineId) {
            throw new IllegalArgumentException(String.format("Worker ID can't be greater than %d or less than 0", maxMachineId));
        }

        // 取高位部分作为机房ID部分
        this.dataCenterId = (workerId >> WORKER_ID_BITS) & MAX_DATA_CENTER_ID;
        // 取低位部分作为机器ID部分
        this.workerId = workerId & MAX_WORKER_ID;
    }

    /**
     * 创建 ID 生成器的方式二: 使用工作机器 ID 和机房 ID,优点是方便分机房管理
     *
     * @param dataCenterId 机房 ID (0~31)
     * @param workerId     工作机器 ID (0~31)
     */
    public SnowFlakeIdWorker(long dataCenterId, long workerId) {
        if (workerId > MAX_WORKER_ID || workerId < 0) {
            throw new IllegalArgumentException(String.format("Worker ID can't be greater than %d or less than 0", MAX_WORKER_ID));
        }
        if (dataCenterId > MAX_DATA_CENTER_ID || dataCenterId < 0) {
            throw new IllegalArgumentException(String.format("DataCenter ID can't be greater than %d or less than 0", MAX_DATA_CENTER_ID));
        }

        this.workerId = workerId;
        this.dataCenterId = dataCenterId;
    }

    /**
     * 获得下一个 ID(该方法是线程安全的)
     *
     * @return 返回一个长度位15的 long类型的数字
     */
    public synchronized long nextId() {
        long timestamp = timeGen();
        // 如果当前时间小于上一次 ID 生成的时间戳,说明发生时钟回拨,为保证ID不重复抛出异常。
        if (timestamp < lastTimestamp) {
            throw new RuntimeException(String.format("Clock moved backwards. Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
        }

        if (lastTimestamp == timestamp) {
            // 同一时间生成的,则序号+1
            sequence = (sequence + 1) & SEQUENCE_MASK;
            // 毫秒内序列溢出:超过最大值
            if (sequence == 0) {
                // 阻塞到下一个毫秒,获得新的时间戳
                timestamp = tilNextMillis(lastTimestamp);
            }
        } else {
            // 时间戳改变,毫秒内序列重置
            sequence = 0L;
        }
        // 上次生成 ID 的时间戳
        lastTimestamp = timestamp;

        // 移位并通过或运算拼到一起
        return ((timestamp - TW_EPOCH) << TIMESTAMP_LEFT_SHIFT)
                | (dataCenterId << DATA_CENTER_ID_SHIFT)
                | (workerId << WORKER_ID_SHIFT)
                | sequence;
    }

    private long tilNextMillis(long lastTimestamp) {
        long timestamp = timeGen();
        while (timestamp <= lastTimestamp) {
            timestamp = timeGen();
        }
        return timestamp;
    }

    private long timeGen() {
        return System.currentTimeMillis();
    }
}

使用示例

// 初始化
SnowFlakeIdWorker idWorker = new SnowFlakeIdWorker(1, 0);

// 生成ID
for(int i=0; i<100; i++){
    System.out.println(idWorker.nextId());
}

注意服务器不能发生时钟回拨,即系统时间发生错误,因为雪花算法是基于时间来生成,所有当发生时钟回拨后会导致出现重复ID的问题。

以上就是Java 基于雪花算法生成分布式id的详细内容,更多关于Java 雪花算法生成分布式id的资料请关注我们其它相关文章!

(0)

相关推荐

  • 详解如何使用MongoDB+Springboot实现分布式ID的方法

    一.背景 如何实现分布式id,搜索相关的资料,一般会给出这几种方案: 使用数据库自增Id 使用reids的incr命令 使用UUID Twitter的snowflake算法 利用zookeeper生成唯一ID MongoDB的ObjectId 另外,在我通过爬取知乎用户id发现,知乎的用户id是32位的,初步断定知乎采用的是md5加密,然后全部转换成小写.至于如何爬取知乎用户信息,见我之前分享的文章.本文采取的技术方案采取的是mogoodb的objectId. 二.mongodb如何实现分布式I

  • java算法之静态内部类实现雪花算法

    概述 在生成表主键ID时,我们可以考虑主键自增 或者 UUID,但它们都有很明显的缺点 主键自增:1.自增ID容易被爬虫遍历数据.2.分表分库会有ID冲突. UUID: 1.太长,并且有索引碎片,索引多占用空间的问题 2.无序. 雪花算法就很适合在分布式场景下生成唯一ID,它既可以保证唯一又可以排序.为了提高生产雪花ID的效率, 在这里面数据的运算都采用的是位运算 一.概念 1.原理 SnowFlake算法生成ID的结果是一个64bit大小的整数,它的结构如下图: 算法描述: 1bit 因为二进

  • Java实现雪花算法(snowflake)

    本文主要介绍了Java实现雪花算法(snowflake),分享给大家,具体如下: 简单描述 最高位是符号位,始终为0,不可用. 41位的时间序列,精确到毫秒级,41位的长度可以使用69年.时间位还有一个很重要的作用是可以根据时间进行排序.注意,41位时间截不是存储当前时间的时间截,而是存储时间截的差值(当前时间截 - 开始时间截) 后得到的值,这里的的开始时间截,一般是我们的id生成器开始使用的时间,由我们程序来指定的(如下下面程序SnowFlake类的START_STMP属性).41位的时间截

  • Java实现雪花算法的原理

    SnowFlake 算法,是 Twitter 开源的分布式 id 生成算法.其核心思想就是:使用一个 64 bit 的 long 型的数字作为全局唯一 id.在分布式系统中的应用十分广泛,且ID 引入了时间戳,基本上保持自增的,后面的代码中有详细的注解. 这 64 个 bit 中,其中 1 个 bit 是不用的,然后用其中的 41 bit 作为毫秒数,用 10 bit 作为工作机器 id,12 bit 作为序列号. 给大家举个例子吧,比如下面那个 64 bit 的 long 型数字: 第一个部分

  • Java 基于雪花算法生成分布式id

    SnowFlake算法原理介绍 在分布式系统中会将一个业务的系统部署到多台服务器上,用户随机访问其中一台,而之所以引入分布式系统就是为了让整个系统能够承载更大的访问量.诸如订单号这些我们需要它是全局唯一的,同时我们基本上都会将它作为查询条件:出于系统安全考虑不应当让其它人轻易的就猜出我们的订单号,同时也要防止公司的竞争对手直接通过订单号猜测出公司业务体量:为了保证系统的快速响应那么生成算法不能太耗时.而雪花算法正好解决了这些问题. SnowFlake 算法(雪花算法), 是Twitter开源的分

  • Mybatis-plus如何提前获取实体类用雪花算法生成的ID

    Mybatis-plus中,通过设置@TableId可以让Mybatis-plus自动为我们生成雪花算法的ID号,该ID号是一个长整型数据,非常方便.但是雪花算法的ID号是在Insert执行的时候生成的,我们在Insert执行前是不知道Entity会获得一个什么ID号. 但是在某些情况下,我们想提前获取这个ID,这样可以通过一些计算来生成其他字段的值.例如我们用此ID号做秘钥来加密密码. 这种情况下,需要提前生成ID号,手动设置给Entity.在实体类中,通过下面这个注解将自动ID改为有程序控制

  • Js Snowflake(雪花算法)生成随机ID的实现方法

    1.snowflake-id插件 import SnowflakeId from "snowflake-id"; const guid = num => { const id= new SnowflakeId(); return id.generate(); }; 2.原生使用 var Snowflake = /** @class */ (function() { function Snowflake(_workerId, _dataCenterId, _sequence) {

  • SpringBoot雪花算法主键ID传到前端后精度丢失问题的解决

    目录 简介 问题描述 项目场景 问题描述 问题复现 解决方案 法1:全局处理 法2:局部处理 简介 本文用示例介绍SpringBoot如何解决雪花算法主键ID传到前端后精度丢失问题. 问题描述 Java后端Long类型的范围 -2^63~2^63,即:-9223372036854775808~9223372036854775807,它是19位的. 这个数字可以通过方法获得:Long.MAX_VALUE.Long_MIN_VALUE. 前端JS的数字类型的范围 -2^53~2^53,即:-9007

  • PHP利用雪花(SnowFlake)算法生成唯一ID

    目录 一.雪花算法原理解析 1. 分布式ID常见生成策略 2. 雪花算法的结构 二.PHP源码实现案例 1.demo1 2.demo2 这个算法的好处很简单可以在每秒产生约400W个不同的16位数字ID(10进制) 一.雪花算法原理解析 1. 分布式ID常见生成策略 分布式ID生成策略常见的有如下几种: 数据库自增ID. UUID生成. Redis的原子自增方式. 数据库水平拆分,设置初始值和相同的自增步长. 批量申请自增ID. 雪花算法. 百度UidGenerator算法(基于雪花算法实现自定

  • mybatis-plus雪花算法生成Id使用详解

    目录 前言 一.mybatis-plus官网 二.雪花算法实战 三.实现分析 四.为什么默认就是雪花算法 五.主动设置Id生成策略 总结 前言 在实际开发过程中,数据库自增主键生成Id能满足大部分的场景.但是随着分布式应用场景的增多,表数据的增大导致分表分库的大量应用.数据库自增主键的生成规则无法满足对应的业务场景,于是诞生了越来越多的分布式ID生成算法,其中雪花算法是目前最为流行的.今天说一下在mybatis-plus中如何使用雪花算法生成Id. 一.mybatis-plus官网 官方文档:h

  • Java实现雪花算法的原理和实战教程

    目录 SnowFlake 算法,是 Twitter 开源的分布式 id 生成算法.其核心思想就是:使用一个 64 bit 的 long 型的数字作为全局唯一 id.在分布式系统中的应用十分广泛,且ID 引入了时间戳,基本上保持自增的,后面的代码中有详细的注解. 这 64 个 bit 中,其中 1 个 bit 是不用的,然后用其中的 41 bit 作为毫秒数,用 10 bit 作为工作机器 id,12 bit 作为序列号. 给大家举个例子吧,比如下面那个 64 bit 的 long 型数字: 第一

  • Java实现雪花算法的示例代码

    一.介绍 SnowFlow算法是Twitter推出的分布式id生成算法,主要核心思想就是利用64bit的long类型的数字作为全局的id.在分布式系统中经常应用到,并且,在id中加入了时间戳的概念,基本上保持不重复,并且持续一种向上增加的方式. 在这64bit中,其中``第一个bit是不用的,然后用其中的41个bit作为毫秒数,用10bit作为工作机器id,12bit`作为序列号.具体如下图所示: 第一个部分:0,这个是个符号位,因为在二进制中第一个bit如果是1的话,那么都是负数,但是我们生成

随机推荐