Redis使用bloom-filter过滤器实现推荐去重

2025-02-23 16:24:01

前期准备

redis原生并不带布隆过滤器，需要单独下载并自行编译和加载。

1.下载redisbloom插件(redis官网下载即可)

https://github.com/RedisLabsModules/redisbloom/

wget https://github.com/RedisLabsModules/rebloom/archive/v1.1.1.tar.gz

2.解压，cd、make，make后会生成rebloom.so文件

tar -zxvf v1.1.1.tar.gz
cd redisbloom-1.1.1/
make

3.配置redis.conf文件，在配置文件中加上，目录为rebloom.so文件的目录路径

loadmodule /目录/rebloom.so

4.重新启动redis

redis-server redis.conf

快速使用

创建filter：[bf.reserve key error_rate initial_size]

bf.reserve users 0.001 100000

bf.reserve命令有三个参数，分别是：

key：键
error_rate：期望错误率，期望错误率越低，需要的空间就越大。
capacity：初始容量，当实际元素的数量超过这个初始化容量时，误判率上升。

如果不使用bf.reserve命令创建，而是使用Redis自动创建的布隆过滤器，默认的error_rate是 0.01，capacity是 100。

隆过滤器的error_rate越小，需要的存储空间就越大，对于不需要过于精确的场景，error_rate设置稍大一点也可以。布隆过滤器的capacity设置的过大，会浪费存储空间，设置的过小，就会影响准确率，所以在使用之前一定要尽可能地精确估计好元素数量，还需要加上一定的冗余空间以避免实际元素可能会意外高出设置值很多。总之，error_rate和 capacity都需要设置一个合适的数值。

请查看：https://www.cnblogs.com/-wenli/p/12444639.html

添加元素：[bf.add key options]

bf.add users user3

判断元素是否存在：[bf.exists key options]

bf.exists users user1

添加多个元素：[bf.add key ...options]

bf.madd users user4 user5 user6 user

判断多个元素是否存在：[bf.add key ...options]

bf.mexists users user4 user5 user6 user7 user8

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

基于redis key占用内存量分析

Redis的指令看不出哪一类型的key,占用了多少内存,不好分析redis内存开销大的情况下,各应用程序使用缓存的占比. 借助第3方工具进行分析 1.采用2个工具结合 redis-rdb-tools+sqlite 2.sqlite linux服务器都会自带,安装redis-rdb-tools 使用pip安装 pip install redis-rdb-tools 源码安装 git clone https://github.com/sripathikrishnan/redis-rdb-tools
布隆过滤器(Bloom Filter)的Java实现方法

布隆过滤器原理很简单:就是把一个字符串哈希成一个整数key,然后选取一个很长的比特序列,开始都是0,在key把此位置的0变为1:下次进来一个字符串,哈希之后的值key,如果在此比特位上的值也是1,那么就说明这个字符串存在了. 如果按照上面的做法,那就和哈希算法没有什么区别了,哈希算法还有重复的呢. 布隆过滤器是将一个字符串哈希成多个key,我还是按照书上的说吧. 先建立一个16亿二进制常量,然后将这16亿个二进制位全部置0.对于每个字符串,用8个不同的随机产生器(F1,F2,.....,F8)产
浅谈Redis的key和value大小限制

今天研究了下将java bean序列化到redis中存储起来,突然脑袋灵光一闪,对象大小会不会超过redis限制?不管怎么着,还是搞清楚一下比较好,所以就去问了下百度,果然没多少人关心这个问题,没找到比较合适的答案,所以决定还是去官网找吧. 找到两句比较关键的话, 截图如下. 结论 redis的key和string类型value限制均为512MB. 补充知识:Redis获取所有键值通过遍历获取目标键值: import redis redis = redis.Redis(host='192.24
bloom filter概念讲解以及代码分析

一. 简介1.什么是bloom filter?Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员,这种检测只会对在集合内的数据错判,而不会对不是集合内的数据进行错判,这样每个检测请求返回有"在集合内(可能错误)"和"不在集合内(绝对不在集合内)"两种情况,可见 Bloom filter 是牺牲了正确率换取时间和空间. 2.bloom filter的计
Redis分布式锁python-redis-lock使用方法

python-redis-lock 多个redis客户端访问同一个redis服务端,控制并发. github:https://pypi.org/project/python-redis-lock/ 在使用这个库之前,需要安装如下: pip install python-redis-lock 使用锁的示例: lock = redis_lock.Lock(conn, "name-of-the-lock") if lock.acquire(blocking=False): print(&qu
Docker 启动Redis 并设置密码的操作

redis使用 redis version 5的apline(阿尔卑斯)镜像,小巧快速新建一个docker-compose.yml文件直接启动,不需连接密码配置如下: version: '3.3' services: cache: image: redis:5-alpine restart: always ports: - "6379:6379" 端口映射为: 6379 (redis默认端口) 在docker-compose.yml文件的目录下运行下面指令,启动Redis: doc
布隆过滤器(bloom filter)及php和redis实现布隆过滤器的方法

引言在介绍布隆过滤器之前我们首先引入几个场景. 场景一在一个高并发的计数系统中,如果一个key没有计数,此时我们应该返回0,但是访问的key不存在,相当于每次访问缓存都不起作用了.那么如何避免频繁访问数量为0的key而导致的缓存被击穿? 有人说, 将这个key的值置为0存入缓存不就行了吗?确实,这是一个好的方案.大部分情况我们都是这样做的,当访问一个不存在的key的时候,设置一个带有过期时间的标志,然后放入缓存.不过这样做的缺点也很明显,浪费内存和无法抵御随机key攻击. 场景二在一个黑名
PHP中实现Bloom Filter算法

<?php /*Bloom Filter算法来去重过滤. 介绍下Bloom Filter的基本处理思路:申请一批空间用于保存0 1信息,再根据一批哈希函数确定元素对应的位置,如果每个哈希函数对应位置的值为全部1,说明此元素存在.相反,如果为0,则要把对应位置的值设置为1.由于不同的元素可能会有相同的哈希值,即同一个位置有可能保存了多个元素的信息,从而导致存在一定的误判率. 如果申请空间太小,随着元素的增多,1会越来越多,各个元素冲突的机会越来越来大,导致误判率会越来越大.另外哈希函数的选择及个数
Redis中Bloom filter布隆过滤器的学习

目录 1.概念 2.guava实现 2.1.依赖 2.2.初始化布隆过滤器 2.3.布隆过滤器 2.4.添加元素或者判断是否存在 3.Redisson实现 3.1.依赖 3.2.注入或测试 1.概念布隆过滤器是一个高空间利用率的概率性数据结构,主要目的是节省内存空间以及判断一个元素是否存在于一个集合中(存在误判的情况),可以理解为一个不怎么精确的 set 结构,当你使用它的 contains 方法判断某个对象是否存在时,它可能会误判.但是布隆过滤器也不是特别不精确,只要参数设置的合理,它的
Redis使用bloom-filter过滤器实现推荐去重

前期准备 redis原生并不带布隆过滤器,需要单独下载并自行编译和加载. 1.下载redisbloom插件(redis官网下载即可) https://github.com/RedisLabsModules/redisbloom/ wget https://github.com/RedisLabsModules/rebloom/archive/v1.1.1.tar.gz 2.解压,cd.make,make后会生成rebloom.so文件 tar -zxvf v1.1.1.tar.gz cd red
Angularjs之filter过滤器(推荐)

现在公司用ionic,就是基于angularjs封装了一些api用于webapp,最近用的angularjs的filter确实省了很多代码,现在总结一下! ng比较鸡肋的过滤器,这里就一笔带过吧!鸡汤类常用的filter后面上例子. lowercase(小写) {{ lastName | lowercase }} uppercase(大写) {{ lastName | uppercase }} number(格式化数字) number过滤器可以为一个数字加上千位分割,像这样,123,456,78
Java Web Filter 过滤器学习教程(推荐)

一.Filter简介 Filter也称之为过滤器,它是Servlet技术中最激动人心的技术,WEB开发人员通过Filter技术,对web服务器管理的所有web资源:例如Jsp, Servlet, 静态图片文件或静态 html 文件等进行拦截,从而实现一些特殊的功能.例如实现URL级别的权限访问控制.过滤敏感词汇.压缩响应信息等一些高级功能. Servlet API中提供了一个Filter接口,开发web应用时,如果编写的Java类实现了这个接口,则把这个java类称之为过滤器Filter.通过F
Redis中Redisson布隆过滤器的学习

目录简介使用 Demo 依赖测试代码简析初始化添加元素检索元素简介本文基于Spring Boot 2.6.6.redisson 3.16.0简单分析Redisson布隆过滤器的使用. 布隆过滤器是一个非常长的二进制向量和一系列随机哈希函数的组合,可用于检索一个元素是否存在: 使用场景如下: 解决Redis缓存穿透问题: 邮件过滤: 使用建立一个二进制向量,所有位设置0: 选择K个散列函数,用于对元素进行K次散列,计算向量的位下标: 添加元素:将K个散列函数作用于该元素,生成K
Redis 中的布隆过滤器的实现

什么是『布隆过滤器』布隆过滤器是一个神奇的数据结构,可以用来判断一个元素是否在一个集合中.很常用的一个功能是用来去重.在爬虫中常见的一个需求:目标网站 URL 千千万,怎么判断某个 URL 爬虫是否宠幸过?简单点可以爬虫每采集过一个 URL,就把这个 URL 存入数据库中,每次一个新的 URL 过来就到数据库查询下是否访问过. select id from table where url = 'https://jaychen.cc' 但是随着爬虫爬过的 URL 越来越多,每次请求前都要访问数据
详解Angularjs filter过滤器

系统的学习了一下angularjs,发现angularjs的有些思想根php的模块smarty很像,例如数据绑定,filter.如果对smarty比较熟悉的话,学习angularjs会比较容易一点.这篇简单说一下angularjs的filter功能,angularjs的filter功能可分为二种,一种是内置的过滤器,一种是自定义的. Filter是用来格式化数据用的. Filter的基本原型( '' 类似于Linux中的管道模式): {{ expression filter }} Filter可

Redis使用bloom-filter过滤器实现推荐去重

相关推荐

随机推荐