go语言中布隆过滤器低空间成本判断元素是否存在方式

2025-12-24 09:46:23

简介

布隆过滤器（BloomFilter）是一种用于判断元素是否存在的方式，它的空间成本非常小，速度也很快。

但是由于它是基于概率的，因此它存在一定的误判率，它的Contains()操作如果返回true只是表示元素可能存在集合内，返回false则表示元素一定不存在集合内。因此适合用于能够容忍一定误判元素存在集合内的场景，比如缓存。

它一秒能够进行上百万次操作（主要取决于哈希函数的速度），并且1亿数据在误判率1%的情况下，只需要114MB内存。

原理

数据结构

布隆过滤器的数据结构是一个位向量，也就是一个由0、1所组成的向量（下面是一个初始向量）：

添加

每个元素添加进布隆过滤器前，都会经过多个不同的哈希函数，计算出不同的哈希值，然后映射到位向量上，也就是对应的位上面置1：

判断存在

判断元素是否存在也是如上图流程，根据哈希函数映射的位置，判断所有映射位置是否都为1，如果是则元素可能存在，否则元素一定不存在。

由于不同的值通过哈希函数之后可能会映射到相同的位置，因此如果一个不存在的元素对应的位位置都被其他元素所设置位1，则查询时就会误判：

假设上图元素3334并没有加入集合，但是由于它映射的位置已经被其他元素所映射，则查询时会误判。

哈希函数

布隆过滤器里面的哈希函数需要是彼此独立且均匀分布（类似于哈希表的哈希函数），而且需要尽可能的快，比如murmur3就是一个很好的选择。

布隆过滤器的性能严重依赖于哈希函数的性能，而一般哈希函数的性能则依赖于输入串（一般为字节数组）的长度，因此为了提高布隆过滤器的性能建议减少输入串的长度。

下面是一个简单的性能测试，单位是字节，可以看到时间的消耗随着元素的增大基本是线性增长的：

cpu: Intel(R) Core(TM) i5-10210U CPU @ 1.60GHz
BenchmarkAddAndContains/1-8 1805840 659.6 ns/op 1.52 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/2-8 1824064 696.4 ns/op 2.87 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/4-8 1819742 649.5 ns/op 6.16 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/8-8 1828371 653.2 ns/op 12.25 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/16-8 1828426 642.0 ns/op 24.92 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/32-8 2106834 565.7 ns/op 56.57 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/64-8 2063895 579.3 ns/op 110.48 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/128-8 1767673 666.1 ns/op 192.17 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/256-8 1292918 916.9 ns/op 279.21 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/512-8 749666 1590 ns/op 322.11 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/1024-8 388015 2933 ns/op 349.12 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/2048-8 203404 5603 ns/op 365.51 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/4096-8 105134 11303 ns/op 362.38 MB/s 0 B/op 0 allocs/op
BenchmarkAddAndContains/8192-8 52305 22067 ns/op 371.23 MB/s 0 B/op 0 allocs/op

布隆过滤器大小、哈希函数数量、误判率

布隆过滤器的大小、哈希函数数量和误判率之间是互相影响的，如果我们想减少误判率，则需要更大的布隆过滤器和更多的哈希函数。但是我们很难直观的计算出这些参数，还好有两个公式可以帮助我们计算出准确的数值：

在我们可以确定我们的元素数量和能够容忍的错误率的情况下，我们可以根据下面公式计算布隆过滤器大小和哈希函数数量：

n = 元素数量
m = 布隆过滤器大小（位数）
k = 哈希函数数量
fpr = 错误率（falsePositiveRate，假阳性率）

m = n*(-ln(fpr)/(ln2*ln2))
k = ln2 * m / n

应用场景

数据库

布隆过滤器可以提前过滤所查询数据并不存在的请求，避免对磁盘访问的耗时。比如LevelDB就使用了布隆过滤器过滤请求github.com/google/leve… 。

黑名单

假设有10亿个黑名单URL，每个URL大小为64字节。使用Bloom Filter，如果错误率为0.1%，只需要1.4GB内存，如果错误率为0.0001%，也只需要2.9GB内存。

实现

这里简单的介绍一下Golang的实现方式。

代码：github.com/jiaxwu/gomm…

数据结构

由于我们没办法直接申请一个bit组成的数组，因此我们使用uint64表示64个bit。

type Filter struct {
	bits    []uint64     // bit数组
	bitsCnt uint64       // bit位数
	hashs   []*hash.Hash // 不同哈希函数
}

初始化

在初始化的时候，我们需要根据上面提到的两个公式，计算布隆过滤器的大小和哈希函数的数量。

// capacity：容量
// falsePositiveRate：误判率
func New(capacity uint64, falsePositiveRate float64) *Filter {
	// bit数量
	ln2 := math.Log(2.0)
	factor := -math.Log(falsePositiveRate) / (ln2 * ln2)
	bitsCnt := mmath.Max(1, uint64(float64(capacity)*factor))
	// 哈希函数数量
	hashsCnt := mmath.Max(1, int(ln2*float64(bitsCnt)/float64(capacity)))
	hashs := make([]*hash.Hash, hashsCnt)
	for i := 0; i &lt; hashsCnt; i++ {
		hashs[i] = hash.New()
	}
	return &amp;Filter{
		bits:    make([]uint64, (bitsCnt+63)/64),
		bitsCnt: bitsCnt,
		hashs:   hashs,
	}
}

添加元素

添加元素的时候，把每个哈希函数映射的位置都设置为1。这里需要注意，因为是用的uint64的数组，因此需要把按照bit计算的偏移，转换为按照64位计算的数组下标和对应下标元素里面的偏移。

// 添加元素
func (f *Filter) Add(b []byte) {
	for _, h := range f.hashs {
		index, offset := f.pos(h, b)
		f.bits[index] |= 1 &lt;&lt; offset
	}
}
// 获取对应元素下标和偏移
func (f *Filter) pos(h *hash.Hash, b []byte) (uint64, uint64) {
	hashValue := h.Sum64(b)
	// 按照位计算的偏移
	bitsIndex := hashValue % f.bitsCnt
	// 因为一个元素64位，因此需要转换
	index := bitsIndex / uint64Bits
	// 在一个元素里面的偏移
	offset := bitsIndex % uint64Bits
	return index, offset
}

判断元素是否存在

同理，只是这里我们如果发现某一位不为1则可以直接返回false。

// 元素是否存在
// true表示可能存在
func (f *Filter) Contains(b []byte) bool {
	for _, h := range f.hashs {
		index, offset := f.pos(h, b)
		mask := uint64(1) &lt;&lt; offset
		// 判断这一位是否位1
		if (f.bits[index] &amp; mask) != mask {
			return false
		}
	}
	return true
}

参考

Bloom Filters by Example

以上就是go语言中布隆过滤器低空间成本判断元素是否存在方式的详细内容，更多关于go 布隆过滤器判断元素的资料请关注我们其它相关文章！

Go语言框架快速集成限流中间件详解

目录前言分布式版简介算法实现注意单机版简介算法实现结语前言在我们的日常开发中, 常用的中间件有很多, 今天来讲一下怎么集成限流中间件, 它可以很好地用限制并发访问数来保护系统服务, 避免系统服务崩溃, 资源占用过大甚至服务器崩溃进而影响到其他应用! 分布式版简介通常我们的服务会同时存在多个进程, 也就是负载来保证服务的性能和稳定性, 那么就需要走一个统一的限流, 这个时候就需要借助我们的老朋友-redis, 来进行分布式限流; 算法漏桶算法即一个水桶, 进水(接
go 分布式锁简单实现实例详解

目录正文案例资源加锁使用redis来实现分布式锁 redis lua保证原子性正文其实锁这种东西,都能能不加就不加,锁会导致程序一定程度上退回到串行化,进而降低效率. 案例首先,看一个案例,如果要实现一个计数器,并且是多个协程共同进行的,就会出现以下的情况: package main import ( "fmt" "sync" ) func main() { numberFlag := 0 wg := new(sync.WaitGroup) for i
go语言Pflag Viper Cobra 核心功能使用介绍

目录 1.如何构建应用框架 2.命令行参数解析工具:Pflag 2.1 Pflag 包 Flag 定义 2.2 Pflag 包 FlagSet 定义 2.3 Pflag 使用方法 3.配置解析神器:Viper 3.1读入配置 3.2 读取配置 4.现代化的命令行框架:Cobra 4.1 使用 Cobra 库创建命令 4.2使用标志 5.总结 1.如何构建应用框架一般来说构建应用框架包含3个部分: 命令行参数解析配置文件解析应用的命令行框架:需要具备 Help 功能.需要能够解析命令行参数和
Django中Migrate和Makemigrations实操详解

目录一.前言二.migrate和makemigrations详解和实操 1. makemigrations 2. 在协同开发的情况下,有冲突的迁移文件时如何解决? 3. migrate 4. 迁移报错怎么办? 三.迁移生成的外键约束有必要吗四.反向迁移-inspectdb 一.前言当我们在django中添加或修改了数据库model后,一般需要执行makemigrations.migrate把我们的model类生成相应的数据库表,或修改对应的表结构.这是非常方便的. 但我们在实际使用中执行
go语言中布隆过滤器低空间成本判断元素是否存在方式

目录简介原理数据结构添加判断存在哈希函数布隆过滤器大小.哈希函数数量.误判率应用场景数据库黑名单实现数据结构初始化添加元素判断元素是否存在简介布隆过滤器(BloomFilter)是一种用于判断元素是否存在的方式,它的空间成本非常小,速度也很快. 但是由于它是基于概率的,因此它存在一定的误判率,它的Contains()操作如果返回true只是表示元素可能存在集合内,返回false则表示元素一定不存在集合内.因此适合用于能够容忍一定误判元素存在集合内的场景,比如缓存
布隆过滤器面试如何快速判断元素是否在集合里

目录 1.什么叫布隆过滤器 2.实现原理 3.作用 4.具体实现 5.代码的实现 6.实战 7.小结如何快速判断一个元素是不是在一个集合里?这个题目是我最近面试的时候常问的一个问题,这个问题不同人都有很多不同的回答. 今天想介绍一个很少有人会提及到的方案,那就是借助布隆过滤器. 1.什么叫布隆过滤器布隆过滤器(Bloom Filter)是一个叫做 Bloom 的老哥于1970年提出的. 实际上可以把它看作由二进制向量(或者说位数组)和一系列随机映射函数(哈希函数)两部分组成的数据结构. 它的
C语言中斐波那契数列的三种实现方式(递归、循环、矩阵)

目录一.递归二.循环三.矩阵 <剑指offer>里讲到了一种斐波那契数列的 O(logN) 时间复杂度的实现,觉得挺有意思的,三种方法都记录一下. 一.递归一般来说递归实现的代码都要比循环要简洁,但是效率不高,比如递归计算斐波那契数列第n个元素. long long Fibonacci_Solution1(unsigned int n) { // printf("%d ", n); if (n <= 0) return 0; if (n == 1) retur
C语言中结构体偏移及结构体成员变量访问方式的问题讨论

c语言结构体偏移示例1 我们先来定义一下需求: 已知结构体类型定义如下: struct node_t{ char a; int b; int c; }; 且结构体1Byte对齐 #pragma pack(1) 求: 结构体struct node_t中成员变量c的偏移. 注:这里的偏移量指的是相对于结构体起始位置的偏移量. 看到这个问题的时候,我相信不同的人脑中浮现的解决方法可能会有所差异,下面我们分析以下几种可能的解法: 方法1 如果你对c语言的库函数比较熟悉的话,那么你第一个想到的肯定是of
Vue watch中监听值的变化,判断后修改值方式

目录 watch监听值的变化,判断后修改值 watch监听data函数中数据改变的三种方式 1.常用型(浅层监听) 2.深层监听(利用deep属性) 3.深层监听某一个特定属性(用字符串表示对象属性的调用) watch监听值的变化,判断后修改值计数器有最小值与最大值的限制,且中间的文本输入框可自己输入值. 实现方式是在watch中监听文本输入框绑定的v-model,跟最大最小值比较后,如果有需要,则改变值. <mu-text-field v-model.number="weightNum
浅析python实现布隆过滤器及Redis中的缓存穿透原理

目录布隆过滤器的原理在 Python 中使用布隆过滤器 1.标准布隆过滤器. 2.计数布隆过滤器. 3.标准扩容布隆过滤器. 4.计数扩容布隆过滤器. Redis 中使用布隆过滤器最后的话在开发软件时,我们经常需要判断一个元素是否在一个集合中,比如,如何判断单词的拼写是否错误(判断单词是否在已知的字典中):在网络爬虫里,如何确认一个网址是否已经爬取过:反垃圾邮件系统中,如何判断一个邮件地址是否为垃圾邮件地址等等. 如果这些作为面试题那就很有区分度了,初级工程师就会说,把全部的元素都存在
Redis 中的布隆过滤器的实现

什么是『布隆过滤器』布隆过滤器是一个神奇的数据结构,可以用来判断一个元素是否在一个集合中.很常用的一个功能是用来去重.在爬虫中常见的一个需求:目标网站 URL 千千万,怎么判断某个 URL 爬虫是否宠幸过?简单点可以爬虫每采集过一个 URL,就把这个 URL 存入数据库中,每次一个新的 URL 过来就到数据库查询下是否访问过. select id from table where url = 'https://jaychen.cc' 但是随着爬虫爬过的 URL 越来越多,每次请求前都要访问数据
Python+Redis实现布隆过滤器

布隆过滤器是什么布隆过滤器(Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难. 布隆过滤器的基本思想通过一种叫作散列表(又叫哈希表,Hash table)的数据结构.它可以通过一个Hash函数将一个元素映射成一个位阵列(Bit array)中的一个点.这样一来,我们只要看看这个点是不是1就可以知道集合中有没
C++ 数据结构之布隆过滤器

布隆过滤器一.历史背景知识布隆过滤器(Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远超过一般的算法,缺点是有一定的误识别率和删除错误.而这个缺点是不可避免的.但是绝对不会出现识别错误的情况出现(即假反例False negatives,如果某个元素确实没有在该集合中,那么Bloom Filter 是不会报告该元素存在集合中的,所以不会漏报) 在 FBI,一个
JAVA实现较完善的布隆过滤器的示例代码

布隆过滤器是可以用于判断一个元素是不是在一个集合里,并且相比于其它的数据结构,布隆过滤器在空间和时间方面都有巨大的优势.布隆过滤器存储空间和插入/查询时间都是常数.但是它也是拥有一定的缺点:布隆过滤器是有一定的误识别率以及删除困难的.本文中给出的布隆过滤器的实现,基本满足了日常使用所需要的功能. 0 0 0 0 0 0 0 0 0 0 先简单来说一下布隆过滤器.其实现方法就是:利用内存中一个长度为M的位数组B并初始化里面的所有位都为0,如下面的表格所示: 然后我们根据H个不同的散列函数,对传进来