C++哈希应用的位图和布隆过滤器

2025-10-31 00:29:01

C++哈希应用的位图和布隆过滤器

一、位图

1.位图的概念

所谓位图，就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。

2.位图的面试题

给40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这40亿个数中。【腾讯】

遍历，时间复杂度O(N)。
排序(O(NlogN))，利用二分查找: logN。
位图解决。

数据是否在给定的整形数据中，结果是在或者不在，刚好是两种状态，那么可以使用一个二进制比特位来代表数据是否存在的信息，如果二进制比特位为1，代表存在，为0代表不存在。比如：

3.位图的实现

#include<iostream>
#include<vector>
#include<math.h>
namespace yyw
{
 class bitset
 {
 public:
  bitset(size_t N)
  {
   _bits.resize(N / 32 + 1, 0);
   _num = 0;
  }

  //将x位的比特位设置为1
  void set(size_t x)
  {
   size_t index = x / 32;           //映射出x在第几个整形
   size_t pos = x % 32;             //映射出x在整形的第几个位置
   _bits[index] |= (1 << pos);
   _num++;
  }

  //将x位的比特位设置为0
  void reset(size_t x)
  {
   size_t index = x / 32;
   size_t pos = x % 32;
   _bits[index] &= ~(1 << pos);
   _num--;
  }

  //判断x位是否在不在
  bool test(size_t x)
  {
   size_t index = x / 32;
   size_t pos = x % 32;

   return _bits[index] & (1 << pos);
  }

  //位图中比特位的总个数
  size_t size()
  {
   return _num;
  }
 private:
  std::vector<int> _bits;
  size_t _num;            //映射存储了多少个数据
 };

 void tes_bitset()
 {
  bitset bs(100);
  bs.set(99);
  bs.set(98);
  bs.set(97);

  bs.set(10);

  for (size_t i = 0; i < 100; i++)
  {
   printf("[%d]:%d\n", i, bs.test(i));
  }

  //40亿个数据，判断某个数是否在数据中
  //bs.reset(-1);
  //bs.reset(pow(2, 32));
 }
}

4.位图的应用

快速查找某个整形数据是否在一个集合中。
排序。
求两个集合的交集、并集等。
操作系统中磁盘块标记。

二、布隆过滤器

1.布隆过滤器的提出

我们在使用新闻客户端看新闻时，它会给我们不停地推荐新的内容，它每次推荐时要去重，去掉那些已经看过的内容。问题来了，新闻客户端推荐系统如何实现推送去重的？用服务器记录了用户看过的所有历史记录，当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选，过滤掉那些已经存在的记录。如何快速查找呢？

用哈希表存储用户记录，缺点：浪费空间。
用位图存储用户记录，缺点：不能处理哈希冲突。
将哈希与位图结合，即布隆过滤器。

2.布隆过滤器的概念

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间。

3.布隆过滤器的插入

布隆过滤器底层是位图：

struct HashStr1
 {
  //BKDR1
  size_t operator()(const std::string& str)
  {
   size_t hash = 0;
   for (size_t i = 0; i < str.size(); i++)
   {
    hash *= 131;
    hash += str[i];
   }
   return hash;
  }
 };

 struct HashStr2
 {
  //RSHash
  size_t operator()(const std::string& str)
  {
   size_t hash = 0;
   size_t magic = 63689; //魔数
   for (size_t i = 0; i < str.size();i++)
   {
    hash *= magic;
    hash += str[i];
    magic *= 378551;
   }
   return hash;
  }
 };

 struct HashStr3
 {
  //SDBHash
  size_t operator()(const std::string& str)
  {
   size_t hash = 0;
   for (size_t i = 0; i < str.size(); i++)
   {
    hash *= 65599;
    hash += str[i];
   }
   return hash;
  }
 };

 //假设布隆过滤器元素类型为K，如果类型为K要自己配置仿函数
 template<class K,class Hash1=HashStr1,class Hash2=HashStr2,class Hash3=HashStr3>
 class bloomfilter
 {
 public:
  bloomfilter(size_t num)
   :_bs(5*num)
   , _N(5*num)
  {

  }
  void set(const K& key)
  {
   size_t index1 = Hash1()(key) % _N;
   size_t index2 = Hash2()(key) % _N;
   size_t index3 = Hash3()(key) % _N;

   _bs.set(index1);   //三个位置都设置为1
   _bs.set(index2);
   _bs.set(index3);
  }
}

4.布隆过滤器的查找

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为1。所以可以按照以下方式进行查找：分别计算每个哈希值对应的比特位置存储的是否为零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。

bool test(const K& key)
  {
   size_t index1 = Hash1()(key) % _N;
   if (_bs.test(index1) == false)
   {
    return false;
   }

   size_t index2 = Hash1()(key) % _N;
   if (_bs.test(index2) == false)
   {
    return false;
   }

   size_t index3 = Hash3()(key) % _N;
   if (_bs.test(index3) == false)
   {
    return false;
   }

   return true;  //但是这里也不一定是真的在，还有可能存在误判

   //判断不在是正确的，判断在可能存在误判
  }

注意：布隆过滤器如果说某个元素不存在时，该元素一定不存在，如果该元素存在时，该元素可能存在，因为有些哈希函数存在一定的误判。

比如：在布隆过滤器中查找"alibaba"时，假设3个哈希函数计算的哈希值为：1、3、7，刚好和其他元素的比特位重叠，此时布隆过滤器告诉该元素存在，但实该元素是不存在的。

5.布隆过滤器的删除

布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素。

比如：删除上图中"tencent"元素，如果直接将该元素所对应的二进制比特位置0，“baidu”元素也被删除了，因为这两个元素在多个哈希函数计算出的比特位上刚好有重叠。

一种支持删除的方法：将布隆过滤器中的每个比特位扩展成一个小的计数器，插入元素时给k个计数器(k个哈希函数计算出的哈希地址)加一，删除元素时，给k个计数器减一，通过多占用几倍存储空间的代价来增加删除操作。

缺陷：

无法确认元素是否真正在布隆过滤器中。
存在计数回绕。

6.布隆过滤器的优点和缺点

优点：节省空间，高效，可以标注存储任意类型
缺点;存在误判，不支持删除

位图

优点：节省空间
缺点：只能处理整形

三、海量数据面试题

1.哈希切割

①给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到top K的IP？如何直接用Linux系统命令实现？

2.位图应用

①给定100亿个整数，设计算法找到只出现一次的整数？

②给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

方案1:将其中一个文件1的整数映射到一个位图中，读取另外一个文件2中的整数，判断在在不在位图，在就是交集。消耗50OM内存
方案2:将文件1的整数映射到位图1中，将文件2的整数映射到位图2中，然后将两个位图中的数按位与。与之后为l1的位就是交集。消耗内存1G。

③位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数？

本题跟上面的第1题思路是一样的
本题找的不超过2次的，也就是要找出现1次和2次的
本题还是用两个位表示一个数，分为出现0次00表示，出现1次的01表示―出现2次的10表示出现3次及3次以上的用11表示

3.布隆过滤器

①给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法?

②如何扩展BloomFilter使得它支持删除元素的操作?

到此这篇关于C++哈希应用的位图和布隆过滤器的文章就介绍到这了,更多相关C++哈希应用位图与布隆过滤器内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

C++获取文件哈希值(hash)和获取torrent(bt种子)磁力链接哈希值

复制代码代码如下: // CHash.h : header file #pragma once#include "sha1.h" #define SIZE_OF_BUFFER 16000 class CHash{// Constructionpublic: CString SHA1Hash(CString strHashFile);}; 复制代码代码如下: // CHash.cpp : implementation file//#include
C++ 位图及位图的实现原理

概念位图就是bitmap的缩写,所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,该数据都是不重复的简单数据.通常是用来判断某个数据存不存在的例如:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中如果不看数据量,我们第一想到的肯定就是依次从头遍历,但是这个数据量是非常大的,有40亿,遍历40亿次消耗的时间和内存是非常多的.但是引入位图后,就可以专门解决这种大量数据查找是否存在的问题.查找这个数是否存在所消耗
C++中的哈希容器unordered_map使用示例

随着C++0x标准的确立,C++的标准库中也终于有了hash table这个东西. 很久以来,STL中都只提供<map>作为存放对应关系的容器,内部通常用红黑树实现,据说原因是二叉平衡树(如红黑树)的各种操作,插入.删除.查找等,都是稳定的时间复杂度,即O(log n):但是对于hash表来说,由于无法避免re-hash所带来的性能问题,即使大多数情况下hash表的性能非常好,但是re-hash所带来的不稳定性在当时是不能容忍的. 不过由于hash表的性能优势,它的使用面还是很广的,于是第三方
C++保存HBITMAP为位图文件的实现方法

本文使用C++将位图句柄HBITMAP保存为位图文件,配合C++抓图代码可以实现抓图保存文件(.bmp). 其步骤如下: 1.创建位图文件: 2.计算位图中每个像素所占字节数: 3. 获取位图结构BITMAP: 4.构造位图信息头BITMAPINFOHEADER: 5.构造位图文件头BITMAPFILEHEADER: 6.为位图内容分配内存: 7.处理调色板: 8.写入文件: 9.清除资源. 下面是C++源代码: ImageHelper.h #pragma once #include <wi
C++ 实现哈希表的实例

C++ 实现哈希表的实例该散列表的散列函数采用了除法散列函数.乘法散列函数.全域散列函数,每一个槽都是使用有序单向链表实现. 实现代码: LinkNode.h #include<iostream> using namespace std; class Link; class LinkNode { private: int key; LinkNode* next; friend Link; public: LinkNode():key(-1),next(NULL){} LinkNode(int
C++位图的实现原理与方法

概念位图就是bitmap的缩写,所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,该数据都是不重复的简单数据.通常是用来判断某个数据存不存在的例如:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中如果不看数据量,我们第一想到的肯定就是依次从头遍历,但是这个数据量是非常大的,有40亿,遍历40亿次消耗的时间和内存是非常多的.但是引入位图后,就可以专门解决这种大量数据查找是否存在的问题.查找这个数是否存在所消耗
C++ 数据结构之布隆过滤器

布隆过滤器一.历史背景知识布隆过滤器(Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远超过一般的算法,缺点是有一定的误识别率和删除错误.而这个缺点是不可避免的.但是绝对不会出现识别错误的情况出现(即假反例False negatives,如果某个元素确实没有在该集合中,那么Bloom Filter 是不会报告该元素存在集合中的,所以不会漏报) 在 FBI,一个
C++哈希应用的位图和布隆过滤器

目录 C++哈希应用的位图和布隆过滤器一.位图 1.位图的概念 2.位图的面试题 3.位图的实现 4.位图的应用二.布隆过滤器 1.布隆过滤器的提出 2.布隆过滤器的概念 3.布隆过滤器的插入 4.布隆过滤器的查找 5.布隆过滤器的删除 6.布隆过滤器的优点和缺点三.海量数据面试题 1.哈希切割 2.位图应用 3.布隆过滤器 C++哈希应用的位图和布隆过滤器一.位图 1.位图的概念所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景.通常是用来判断某个数据存不存在的.
C++详细讲解模拟实现位图和布隆过滤器的方法

目录位图引论概念解决引论位图的模拟实现铺垫结构构造函数存储 set,reset,test flip,size,count any,none,all 重载流运算符测试位图简单应用位图代码汇总布隆过滤器引论要点代码实现效率解决方法位图引论四十亿个无符号整数,现在给你一个无符号整数,判断这个数是否在这四十亿个数中. 路人甲:简单,快排+二分. 可是存储这四十亿个整数需要多少空间? 简单算一下,1G=1024M=1024 * 1024KB=1024 * 1024
Redis使用元素删除的布隆过滤器来解决缓存穿透问题

目录前言缓存雪崩解决方案缓存击穿解决方案缓存穿透解决方案布隆过滤器(Bloom Filter) 什么是布隆过滤器位图(Bitmap) 哈希碰撞布隆过滤器的2大特点 fpp 布隆过滤器的实现(Guava) 布隆过滤器的如何删除带有计数器的布隆过滤器总结前言在我们日常开发中,Redis使用场景最多的就是作为缓存和分布式锁等功能来使用,而其用作缓存最大的目的就是为了降低数据库访问.但是假如我们某些数据并不存在于Redis当中,那么请求还是会直接到达数据库,而一旦在同一时间大
浅析python实现布隆过滤器及Redis中的缓存穿透原理

目录布隆过滤器的原理在 Python 中使用布隆过滤器 1.标准布隆过滤器. 2.计数布隆过滤器. 3.标准扩容布隆过滤器. 4.计数扩容布隆过滤器. Redis 中使用布隆过滤器最后的话在开发软件时,我们经常需要判断一个元素是否在一个集合中,比如,如何判断单词的拼写是否错误(判断单词是否在已知的字典中):在网络爬虫里,如何确认一个网址是否已经爬取过:反垃圾邮件系统中,如何判断一个邮件地址是否为垃圾邮件地址等等. 如果这些作为面试题那就很有区分度了,初级工程师就会说,把全部的元素都存在
布隆过滤器的概述及Python实现方法

布隆过滤器布隆过滤器是一种概率空间高效的数据结构.它与hashmap非常相似,用于检索一个元素是否在一个集合中.它在检索元素是否存在时,能很好地取舍空间使用率与误报比例.正是由于这个特性,它被称作概率性数据结构(probabilistic data structure). 空间效率我们来仔细地看看它的空间效率.如果你想在集合中存储一系列的元素,有很多种不同的做法.你可以把数据存储在hashmap,随后在hashmap中检索元素是否存在,hashmap的插入和查询的效率都非常高.但是,由于ha
什么是Java布隆过滤器?如何使用你知道吗

目录一.布隆过滤器简介二.布隆过滤器的结构三.布隆过滤器应用四.布隆过滤器的优缺点五.布隆过滤器实战六.总结 Redis缓存穿透可以通过布隆过滤器进行解决,那么什么是布隆过滤器呢?请往下看. 通常你判断某个元素是否存在用的是什么? 很多人想到的是HashMap. 确实可以将值映射到 HashMap 的 Key,然后可以在 O(1) 的时间复杂度内返回结果,效率奇高.但是 HashMap 的实现也有缺点,例如存储容量占比高,考虑到负载因子的存在,通常空间是不能被用满的,而一旦你的值很多
go语言中布隆过滤器低空间成本判断元素是否存在方式

目录简介原理数据结构添加判断存在哈希函数布隆过滤器大小.哈希函数数量.误判率应用场景数据库黑名单实现数据结构初始化添加元素判断元素是否存在简介布隆过滤器(BloomFilter)是一种用于判断元素是否存在的方式,它的空间成本非常小,速度也很快. 但是由于它是基于概率的,因此它存在一定的误判率,它的Contains()操作如果返回true只是表示元素可能存在集合内,返回false则表示元素一定不存在集合内.因此适合用于能够容忍一定误判元素存在集合内的场景,比如缓存
Java实现布隆过滤器的方法步骤

前言记得前段时间的文章么?redis使用位图法记录在线用户的状态,还是需要自己实现一个IM在线用户状态的记录,今天来讲讲另一方案,布隆过滤器布隆过滤器的作用是加快判定一个元素是否在集合中出现的方法.因为其主要是过滤掉了大部分元素间的精确匹配,故称为过滤器. 布隆过滤器在日常生活工作,我们会经常遇到这的场景,从一个Excel里面检索一个信息在不在Excel表中,还记得被CTRL+F支配的恐惧么,不扯了,软件开发中,一般会使用散列表来实现,Hash Table也叫哈希表,哈希表的优点是快速准确
Java的布隆过滤器你了解吗

目录 BitMap 布隆过滤器运用场景传统数据结构的不足实现原理误判现象实现 Redis 的 bitmap RedisBloom Guava 的 BloomFilter Redisson 解决缓存穿透总结 BitMap 现代计算机用二进制(bit,位)作为信息的基础单位,1 个字节等于 8 位,例如big字符串是由 3 个字节组成,但实际在计算机存储时将其用二进制表示,big分别对应的 ASCII 码分别是 98.105.103,对应的二进制分别是 01100010.01101001
C++ BloomFilter布隆过滤器应用及概念详解

目录一.布隆过滤器概念二.布隆过滤器应用三.布隆过滤器实现 1.插入 2.查找 3.删除四.布隆过滤器优缺五.结语一.布隆过滤器概念布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的一种紧凑型的.比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中.此种方式不仅可以提升查询效率,也可以节省大量的内存空间 . 位图的优点是节省空间,快,缺点是要求范围相对集中,