redis中的bitmap你了解吗

目录
  • 1、BitMap是什么
  • 2、setbit命令介绍
  • 总结

1、BitMap是什么

通过一个bit位来表示某个元素对应的值或者状态,其中的key就是对应元素本身。我们知道8个bit可以组成一个Byte,所以bitmap本身会极大的节省储存空间。2^32次方40亿数据只需要500M内存,需要内存少了8倍

2、setbit命令介绍

setbit key offset value
 #设置bitmapkey为20220328  uid为100的用户已签到1
setbit  20220320  100 1
setbit  20220320  200 1
 setbit  20220321  100 1
setbit  20220321  300 1
  getbit 20220320  100  #返回1,说明这个用户已签到了
  bitcount 20220320  #获取bitmap数量

bitmap的坑

127.0.0.1:6400> setbit bittest 100 1 #设置不存在的offset返回0
(integer) 0
127.0.0.1:6400> setbit bittest 100 1 #设置已存在的offset返回1
(integer) 1

setbit maxKey 4000000000 1 #直接弄了你600多M内存

/**
     * 布隆过滤器bloom Filter
     * 1.百万分之一的概率哈希冲突,所以有存在的不一定存在,但是不存在的百分百不存在
     * 2.不能删除,删除的时候不能简单的直接置为0,可能会影响其他元素的判断,其实问题不大一般生产数据也不会删除的,都是软删除
     * 3.新增数据时候写入bloom Filter
     * 4.2^32次方40亿数据内存占用才600M,超级省内存,查找速度非常快,160M内存可以在千万级数据做到1%的误判
     * 5.bitmap根据offset去申请内存的,所以要省内存的情况要限制offset值
     */
    public function bloomAction(){
        $t1 = time();
         for($i=0;$i<99;$i++){
            $bl = new BloomFilter();
            //$str = "1https://arnaud.le-blanc.net/php-rdkafka-doc/phpdoc/book.rdkafka.html?id=".time();
            $str = "https://dasda.le-blanc.net/php-rdkafka-doc/phpdoc/book.rdkafka.html?id=".mt_rand(1,99999999);
            p($str);
             $res1 = $bl->JSHash($str);//两次哈希3s,md5哈希重复的概率是百万分之一
             p($res1);
        }
        //p($res);
        $t2 = time();
        echo $t2-$t1;
    }
    /**
     * 布隆过滤器初始化 bloom Filter 执行 php  index.php "index/demo/loadDb2bloom"
     */
    public function isExistBloomAction(){
        $redis = redisCursor();
        $email = input("email","","trim");
        $tel   = input("tel","");
         $result = false;
        $msg    = "";
        if(filter_var($email,FILTER_VALIDATE_EMAIL)){
            $key1  = "bloom_user_email";
            $offset = BloomFilter::JSHash($email);
            $result = $redis->getbit($key1,$offset);
            $msg = $email;
        }elseif($tel){
            $key2  = "bloom_user_telephone";
            $offset = BloomFilter::JSHash($tel);
            $result = $redis->getbit($key2,$offset);
            $msg = $tel;
        }
         $result?apiSuccess($msg.",已存在"):apiError($msg.",不存在");
    }
    /**
     * 布隆过滤器初始化 bloom Filter 执行 php  index.php "index/demo/loadDb2bloom"
     */
    public function loadDb2bloomAction(){
        $time1 = time();
        $redis = redisCursor();
         $key1 = "bloom_user_email";
        $key2 = "bloom_user_telephone";
         //setbit() offset 必须是数字,value必须是1或0
        //$redis->setbit($key,30,1);
        $table  = "user";
        $pkid   = "id";
        $field1 = "email";
        $field2 = "telephone";
         $maxid = Db::name($table)->max($pkid);
         $size  = 5000;
        $page  = ceil($maxid/$size);
         for($i=0;$i<$page;$i++){
            $start = $i*$size;
            $where = " $pkid between ".$start."  and ".($start+$size);
            $res = Db::name($table)->where($where)->field("$field1,$field2")->select();
             if($res){//同步到bitmap
                foreach($res as $k=>$v){
                    //布隆过滤器  1.存在的不一定存在, 2.不存在的100%不存在(原因,哈希冲突可能用100W分之一的可能重复)
                    //所以注册的时候判断不存在的,百分百可以注册,存在的可以查询一下数据库是否真的不存在
                     $value1 = BloomFilter::JSHash($v["$field1"]);
                    $value2 = BloomFilter::JSHash($v["$field2"]);
                     $redis->setbit($key1,$value1,1);//email去重
                    $redis->setbit($key2,$value2,1);//mobile去重
                }
            }
             $time2 = time();
            echo $where." 消耗时间 ".($time2-$time1).PHP_EOL;
        }
         $time3 = time();
        echo " 总消耗时间 ".($time3-$time1).PHP_EOL;
    }
<?php
 class BloomFilter
{
    /**
     *  下面的哈希函数随便用一个都行,都是把字符串转换成数字
     */
     /**
     * hash方法类
     * 由Justin Sobel编写的按位散列函数
     * update:Denny
     * 返回之前做了内存限制在160M,超过10亿的哈希后的数值,把它限制在10亿内,此时1000W的数据可做到1%误判,内存不差这600多M的话就别限制了
     * 因为redis的bitmap申请内存是看offset申请内存的,setbit mykey 400000000 1,这样直接申请了600M内存
     */
    public static function JSHash($string, $limitMemory=true,$len = null)
    {
        $hash = 1315423911;
        $len || $len = strlen($string);
         for($i = 0; $i < $len; $i++)
        {
            $hash ^= (($hash << 5) + ord($string[$i]) + ($hash >> 2));
        }
         $hashNum = ($hash % 0xFFFFFFFF) & 0xFFFFFFFF;
         //为了节省内存,超过10亿就对半拆,10亿,这时候大约是130M内存占用,千万级数据可以做到1%误判率,内存足够可以不用判断,直接生成就行了
        //如果数据过4000W的话不用限制了,因为生成的数据最大也是2^32次方40多亿,此时内存占用大概在600M封顶了
        if($limitMemory){
            if($hashNum>4000000000){
                $hashNum = intval($hashNum/5);
            }elseif($hashNum>3000000000){
                $hashNum = intval($hashNum/4);
            }elseif($hashNum>2000000000){
                $hashNum = intval($hashNum/3);
            }
        }
         return $hashNum;
    }
}

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注我们的更多内容!

(0)

相关推荐

  • 浅谈Redis位图(Bitmap)及Redis二进制中的问题

    Redis位图(Bitmap)及二进制的问题 SETBIT key offset value 对 key 所储存的字符串值,设置或清除指定偏移量上的位(bit).位的设置或清除取决于 value 参数,可以是 0 也可以是 1 .当 key 不存在时,自动生成一个新的字符串值.字符串会进行伸展(grown)以确保它可以将 value 保存在指定的偏移量上.当字符串值进行伸展时,空白位置以 0 填充.offset 参数必须大于或等于 0 ,小于 2^32 (bit 映射被限制在 512 MB 之内

  • 聊聊Redis二进制数组Bitmap

    好久没有更新了,之前公司在做 关注/粉丝 这块儿缓存的时候,我选择的就是 Bitmap ,那时是我第一次见识到这种数据数组形式,用到的有 SETBIT , GETBIT , BITCOUNT ,命令如何使用就不说了,今天来仔细看看这三个命令的实现和原理. 选用 bitmap 的考量: 位数组的实现 关注关系需求中 关注对象 和 被关注人 都是 0-几千万 的数据对象,存储这种对应关系时,采用bitmap 这种位数组,明显要比 uid 的 set 方式要节省存储空间,redis 的 内存 是很宝贵

  • 基于Redis分布式BitMap的应用分析

    目录 一.序言 二.BitMap结构 1.内存消耗分析 2.命令行操作BitMap 3.客户端操作BitMap 4.时间与空间复杂度 三.BitMap应用 1.回避缓存穿透 2.与布隆过滤器的区别 四.小结 一.序言 在实际开发中常常遇到如下需求:判断当前元素是否存在于已知的集合中,将已知集合中的元素维护一个HashSet,使用时只需耗时O(1)的时间复杂度便可判断出结果,Java内部或者Redis均提供相应的数据结构.使用此种方式除了占用内存空间外,几乎没有其它缺点. 当数据量达到亿级别时,内

  • PHP使用redis位图bitMap 实现签到功能

    一.需求 记录用户签到,查询用户签到 二.技术方案 1.使用mysql(max_time字段为连续签到天数) 思路: (1)用户签到,插入一条记录,根据create_time查询昨日是否签到,有签到则max_time在原基础+1,否则,max_time=0 (2)检测签到,根据user_id.create_time查询记录是否存在,不存在则表示未签到 2.使用redis位图功能 思路: (1)每个用户每个月单独一条redis记录,如00101010101010,从左往右代表01-31天(每月有几

  • Redis中3种特殊的数据类型(BitMap、Geo和HyperLogLog)

    前言 Reids 在 Web 应用的开发中使用非常广泛,几乎所有的后端技术都会有涉及到 Redis 的使用.Redis 种除了常见的字符串 String.字典 Hash.列表 List.集合 Set.有序集合 SortedSet 等等之外,还有一些不常用的数据类型,这里着重介绍三个.下面话不多说了,来一起看看详细的介绍吧. BitMap BitMap 就是通过一个 bit 位来表示某个元素对应的值或者状态, 其中的 key 就是对应元素本身,实际上底层也是通过对字符串的操作来实现.Redis 从

  • Redis中的bitmap详解

    1.什么是bitmap? bitmap也叫位图,也就是用一个bit位来表示一个东西的状态,我们都知道bit位是二进制,所以只有两种状态,0和1. 2.为什么要有bitmap? bitmap的出现就是为了大数据量而来的,但是前提是统计的这个大数据量每个的状态只能有两种,因为每一个bit位只能表示两种状态. 下面我们直接以一个统计亿级用户活动的状态来说明吧. 3.案例说明 3.1.案例描述 如果有一个上亿用户的系统,需要我们去统计每一天的用户登录情况,我们应该如何去解决? 前提条件:设置在9月19号

  • redis中的bitmap你了解吗

    目录 1.BitMap是什么 2.setbit命令介绍 总结 1.BitMap是什么 通过一个bit位来表示某个元素对应的值或者状态,其中的key就是对应元素本身.我们知道8个bit可以组成一个Byte,所以bitmap本身会极大的节省储存空间.2^32次方40亿数据只需要500M内存,需要内存少了8倍 2.setbit命令介绍 setbit key offset value #设置bitmapkey为20220328 uid为100的用户已签到1 setbit 20220320 100 1 s

  • Redis中Bitmap的使用示例

    目录 位图应用原理 位图常用命令 1) SETBIT命令 2) GETBIT命令 3) BITCOUNT命令 4)Redis Bitop 命令 场景 统计当日活跃用户 用户签到 在日常开发过程中,经常会有一些 bool 类型数据需要存取.比如记录用户一年内签到的次数,签了是 1,没签是 0.如果使用 key-value 来存储,那么每个用户都要记录 365 次,当用户成百上亿时,需要的存储空间将非常巨大.解决这个问题,可以使用redis中的位图. 位图(bitmap)同样属于 string 数据

  • 浅析python实现布隆过滤器及Redis中的缓存穿透原理

    目录 布隆过滤器的原理 在 Python 中使用布隆过滤器 1.标准布隆过滤器. 2.计数布隆过滤器. 3.标准扩容布隆过滤器. 4.计数扩容布隆过滤器. Redis 中使用布隆过滤器 最后的话 在开发软件时,我们经常需要判断一个元素是否在一个集合中,比如,如何判断单词的拼写是否错误(判断单词是否在已知的字典中):在网络爬虫里,如何确认一个网址是否已经爬取过:反垃圾邮件系统中,如何判断一个邮件地址是否为垃圾邮件地址等等. 如果这些作为面试题那就很有区分度了,初级工程师就会说,把全部的元素都存在

  • 详解Java redis中缓存穿透 缓存击穿 雪崩三种现象以及解决方法

    目录 前言 一.缓存穿透 二.缓存击穿 三.雪崩现象 总结 前言 本文主要阐述redis中的三种现象 1.缓存穿透 2.缓存击穿 3.雪崩现象 本文主要说明本人对三种情况的理解,如果需要知道redis基础请查看其他博客,加油! 一.缓存穿透 理解:何为缓存穿透,先要了解穿透,这样有助于区分穿透和击穿,穿透就类似于伤害一点一点的累计,最终打到穿透的目的,类似于射手,一下一下普通攻击,最终杀死对方,先上图 先来描述一下缓存穿透的过程: 1.由于我们取数据的原则是先查询redis上,如果redis上有

  • Redis特殊数据类型bitmap位图

    目录 Redis数据类型bitmap位图 一.setbit 二.getbit 三.bitcount Redis数据类型bitmap位图 bitmap数据结构,是基于二进制位来进行操作记录的,只有0 和 1两个状态.可以想象成一个数组,里面只有0或者1. 能干嘛呢? 现实中会有这些场景,比如统计用户信息,活跃用户和非活跃用户.登录的.未登录的用户,打卡的.未打卡的,像这种只有2个状态,并且数据量非常大的,就适合使用bitmap. 网上找了一个对比,可以帮助记忆下bitmap的优点. 一.setbi

  • Redis中HyperLogLog的使用详情

    目录 前言 添加元素 前言 HyperLogLog ,基数统计: 那什么是基数? 比如有两个数组 数组A = [1,2,3,4,5]; 数组B = [3,4,5,6,7]; 这时候基数就是 [1,2,3,4,5,6,7],总共有7个数: 就是去重之后的数据: HyperLogLog 就是用来做去重复统计的: bitmap 在做统计时,虽然使用的是 bit 来做记录,已经很节省空间了: 但是在随着数据量快速增长的情况下,bitmap 也是很占内存空间的: 而 HyperLogLog 就不同了,Hy

  • redis中事务机制及乐观锁的实现

    Redis事务机制 在MySQL等其他数据库中,事务表示的是一组动作,这组动作要么全部执行,要么全部不执行. Redis目前对事物的支持相对简单.Redis只能保证一个client发起的事务中的命令可以连续的执行,而中间不会插入其他的client命令.当一个client在一个链接中发出multi命令时,这个链接会进入一个事务上下文,该连接后续的命令不会立即执行,而是先放到一个队列中,当执行exec命令时,redis会顺序的执行队列中的所有命令. Multi 开启事务: 127.0.0.1:637

随机推荐