Bitmap海量数据快速查找去重代码示例

题目描述

给你一个文件,里面包含40亿个整数,写一个算法找出该文件中不包含的一个整数, 假设你有1GB内存可用。

如果你只有10MB的内存呢?

解题思路

对于40亿个整数,如果直接用int数组来表示的大约要用4010^84B=16GB,超出了内存要求,这里

我们可以用bitmap来解决,bitmap基本思想是一位表示一个整数,比如我们有6个数据:

1
7 3 1 5 6 4

假设bitmap容量为8,当插入7时 bit[7]=1,以此类推

bit[3]=1

bit[1]=1

bit[5]=1

……

bit[4]=1

这样我们查询5,只需要查看bit[5]==1侧存在,否则不存在。

这样一个位代表一个数据,那40一个数据大概要4010^8bit = 0.5GB,满足内存要求。

实现细节

首先我们用int来表示:int bmap[1+N/32]; //N是总数,N=40亿,一个int32bit

然后我们插入一个整数val,要先计算val位于数组bmap中的索引:index = val/32;

比如整数33,index=33/32=1,第33位于数组中的index=1

比如整数67,index=67/32=2,位于数组中index=2

然后在计算在这个index中的位置,因为数组中的每个元素有32位

33,index=1,在1中的位置为33%32=1

67,index=2,在2中的位置为67%32=3

然后就是标识这个位置为1:

bmap[val/32] |= (1<<(val%32));

33: bmap[1] != (1<<1);//xxxxxx 1 x,红丝位置被置为1

67: bmap[2] != (1<<3);//xxxx 1 xxx

代码

void setVal(int val)
{
bmap[val / 32] |= (1 << (val % 32));
//bmap[val>>5] != (val&0x1F);//这个更快?
} 

怎样检测整数是否存在?

比如我们检测33,同样我们需要计算index,以及在index元素中的位置

33: index = 1, 在bmap[1]中的位置为 1,只需要检测这个位置是否为1

bmp[1] &(1<<1),这样是1返回true,否侧返回false

67:bmp[2]&(1<<3)

127:bmp[3]&(1<<31)

代码:

bool testVal(int val)
{
return bmap[val / 32] & (1 << (val % 32));
//return bmap[val>>5] & (val&0x1F);
} 

下面是完整测试代码:

const int N = MaxN;
const int BitLen = 32;
int bmap[1 + N / BitLen];

void setVal(int val)
{
  bmap[val / BitLen] |= (1 << (val % BitLen));
}

bool testVal(int val)
{
  return bmap[val / BitLen] & (1 << (val % BitLen));
}

void funTest()
{
  int a[] = { 1, 2, 3, 4, 6, 7};

  for (int i = 0; i < 6; ++i)
  {
    setVal(a[i]);
  }

  std:: cout << testVal(5) << std:: endl;
  return 0;
}

现在我们来看如果内存要求是10MB呢?

这当然不能用bitmap来直接计算。因为从40亿数据找出一个不存在的数据,我们可以将这么多的数据分成许多块, 比如每一个块的大小是1000,那么第一块保存的就是0到999的数,第2块保存的就是1000 到1999的数……

实际上我们并不保存这些数,而是给每一个块设置一个计数器。 这样每读入一个数,我们就在它所在的块对应的计数器加1。

处理结束之后, 我们找到一个块,它的计数器值小于块大小(1000), 说明了这一段里面一定有数字是文件中所不包含的。然后我们单独处理这个块即可。接下来我们就可以用Bit Map算法了。我们再遍历一遍数据, 把落在这个块的数对应的位置1(我们要先把这个数归约到0到blocksize之间)。 最后我们找到这个块中第一个为0的位,其对应的数就是一个没有出现在该文件中的数。)

代码如下(一个测试的代码):

const int N = 1000;
const int BITLEN = 32;
const int BLOCK_SIZE = 100;

int Bucket[1 + N / BLOCK_SIZE] = { 0};
int BitMap[1 + BLOCK_SIZE / BITLEN] = { 0};

void test()
{
  //生成测试数据
  freopen("test.txt", "w", stdout);
  for (int i = 0; i < 1000; ++i)
  {
    if (i == 127) {
      printf("0\n");
      continue;
    }
    printf("%d\n", i);
  }
  fclose(stdout);

  //读入测试数据
  freopen("test.txt", "r", stdin);
  int Value;
  while (scanf("%d", & Value) != EOF) {
    ++Bucket[Value / BLOCK_SIZE]; //测试数据分段累计
  }
  fclose(stdin);

  //找出累计计数小于BLOCK_SIZE的
  int Start = -1, i;
  for (i = 0; i < 1 + N / BLOCK_SIZE; ++i) {
    if (Bucket[i] < BLOCK_SIZE) {
      Start = i * BLOCK_SIZE;
      break;
    }
  }
  if (i == 1 + N / BLOCK_SIZE || Bucket[N / BLOCK_SIZE] == 0 && i == N / BLOCK_SIZE) return;
  int End = Start + BLOCK_SIZE - 1;

  //在不满足的那段用bitmap来检测
  freopen("test.txt", "r", stdin);
  while (scanf("%d", & Value) != EOF) {
    if (Value >= Start && Value <= End)//Value必须满足在那段
    {
      int Temp = Value - Start;
      BitMap[Temp / BITLEN] |= (1 << (Temp % BITLEN));
    }
  }
  fclose(stdin);

  //找出不存在的数
  freopen("re.txt", "w", stdout);
  bool Found = false;
  for (int i = 0; i < 1 + BLOCK_SIZE / BITLEN; ++i)
  {
    for (int k = 0; k < BITLEN; ++k)
    {
      if ((BitMap[i] & (1 << k)) == 0) {
        printf("%d ", i * BITLEN + k + Start);
        Found = true;
        break;
      }
    }
    if (Found) break;
  }
  fclose(stdout);
}

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • 详解Android Bitmap的常用压缩方式

    一.前言 已经好久没有更新博客,大概有半年了,主要是博主这段时间忙于找工作,Android岗位的工作真的是越来越难找,好不容易在广州找到一家,主要做海外产品,公司研发实力也不错,所以就敲定了三方协议.现在已经在公司实习了一个月多,目前主要是负责公司某个产品的内存优化,刚好就总结了一下Android Bitmap常用的优化方式. Android中的图片是以Bitmap方式存在的,绘制的时候也是Bitmap,直接影响到app运行时的内存,在Android,Bitmap所占用的内存计算公式是:图片长度

  • Android 实现将Bitmap 保存到本地

    Overview 图片是一个可以使你程序变得比较的美观,所以我们会在我们的软件中使用图片.但是对于图片的操作也是比较的复杂.今天,我们学习一下如是将我们的图片保存到我们的本地. 开发环境 Android Studio 3.6 Android 11 Mac OS 10.15 模拟机 Google Pixel3 API R 然后学习一下如何来完成我们的功能 按照国际惯例,我们先来看一下我们的代码: /** * Bitmap 帮助类之一 */ class BitmapUtils { /** * Sav

  • android获取图片尺寸的两种方式及bitmap的缩放操作

    我就废话不多说了,大家还是直接看代码吧~ //Uri.parse("file://"+result.getImage().getCompressPath())) String path=uri.getPath(); Log.e("图片路径",path+""); SpannableString spannableString=new SpannableString(path); //方法一:通过uri把图片转化为bitmap的方法 Bitmap b

  • Android中Bitmap、File与Uri之间的简单记录

    简介: 感觉Uri .File.bitmap 比较混乱,这里进行记载,方便以后查看.下面话不多说了,来一起看看详细的介绍吧 Bitmap.File与Uri 1.将一个文件路径path转换成File String path ; File file = new File(path) 2.讲一个Uri转换成一个path 以选择一张图片为例: String path = FileTools.getRealPathFromUri(content,uri); //自定义方法在下面 public static

  • Android 实现把bitmap图片的某一部分的颜色改成其他颜色

    把bitmap图片的某一部分的颜色改成其他颜色 private Bitmap ChangeBitmap(Bitmap bitmap){ int bitmap_h; int bitmap_w; int mArrayColorLengh; int[] mArrayColor; int count = 0; mArrayColorLengh = bitmap.getWidth() * bitmap.getHeight(); mArrayColor = new int[mArrayColorLengh]

  • Android 图片Bitmap的剪切的示例代码

    一.什么是Android中的Bitmap Bitmap是Android系统中的图像处理的最重要类之一.用它可以获取图像文件信息,进行图像剪切.旋转.缩放等操作,并可以指定格式保存图像文件. 二.Bitmap的剪切基本操作 复制代码 代码如下: public static Bitmap createBitmap (Bitmap source, int x, int y, int width, int height, Matrix m, boolean filter) 从原始位图剪切图像,这是一种高

  • Android中的Bitmap的详细介绍

    Bitmap简介(摘抄于网络) 位图文件(Bitmap),扩展名可以是.bmp或者.dib.位图是Windows标准格式图形文件,它将图像定义为由点(像素)组成,每个点可以由多种色彩表示,包括2.4.8.16.24和32位色彩. 例如,一幅1024×768分辨率的32位真彩图片,其所占存储字节数为:1024×768×32/(8*1024)=3072KB 位图文件图像效果好,但是非压缩格式的,需要占用较大存储空间,不利于在网络上传送.jpg/png格式则恰好弥补了位图文件的缺点. 在Android

  • c# 实现位图算法(BitMap)

    算法原理 BitMap的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素.由于采用了Bit为单位来存储数据,因此可以大大节省存储空间. BitMap可以看成一种数据结构. 假设有这样一个需求:在20亿个随机整数中找出某个数m是否存在其中,并假设32位操作系统,4G内存. 在Java中,int占4字节,1字节=8位(1 byte = 8 bit). 如果每个数字用int存储,那就是20亿个int,因而占用的空间约为 (2000000000*4/1024/1024/102

  • Bitmap海量数据快速查找去重代码示例

    题目描述 给你一个文件,里面包含40亿个整数,写一个算法找出该文件中不包含的一个整数, 假设你有1GB内存可用. 如果你只有10MB的内存呢? 解题思路 对于40亿个整数,如果直接用int数组来表示的大约要用4010^84B=16GB,超出了内存要求,这里 我们可以用bitmap来解决,bitmap基本思想是一位表示一个整数,比如我们有6个数据: 1 7 3 1 5 6 4 假设bitmap容量为8,当插入7时 bit[7]=1,以此类推 bit[3]=1 bit[1]=1 bit[5]=1 -

  • Apache Commons Math3探索之快速傅立叶变换代码示例

    上一篇文章中我们了解了Apache Commons Math3探索之多项式曲线拟合实现代码,今天我们就来看看如何通过apache commons math3实现快速傅里叶变换,下面是具体内容. 傅立叶变换:org.apache.commons.math3.transform.FastFourierTransformer类. 用法示例代码: double inputData = new double[arrayLength]; // ... 给inputData赋值 FastFourierTran

  • SpringBoot整合minio快速入门教程(代码示例)

    分享一个快速使用springboot整合minio实现文件上传和下载的示例.前提是已经安装并运行minio服务,参考 minio快速入门文档 首先添加Minio的依赖 <dependency> <groupId>io.minio</groupId> <artifactId>minio</artifactId> <version>3.0.10</version> </dependency> 然后写一个contro

  • 实例分析之用ASP编程实现网络内容快速查找的代码

    有一天我突发奇想,要是我每到一个网站,那里都能立刻调出我需要看的信息,那岂非美妙得很.接下来我想更深入地考虑这个问题,坐到椅子上拿一支铅笔,却不知道自己写什么.如此一来,我还是得着手对付代码它们.  我的朋友开了一个小型站点,原本是我设计的.这是个检验我想法的好平台.所以我写出代码,上传了文件.真叫人兴奋,程序工作起来煞是圆满,同时也证明我的想法的确不错. 以前看过一些网络使用者倾向报告,其中有一个规律给我印象很深.说是大多数用户如果在三次点击内无法找到自己需要的内容,就会立刻离开该站点.我的代

  • 基于Django快速集成Echarts代码示例

    1.在线定制下载echarts https://echarts.apache.org/zh/builder.html 2.创建一个django项目或者在已有的项目 配置文件中确保数据库配置.static配置.与添加项目名到INSTALLED_APPS下. 配置静态文件目录static,目录下创建:css.img.js. 保存echarts.min.js到js目录下. 创建templates文件,html文件放到此目录. 快速静态测试 test.html文件 <!DOCTYPE html> &l

  • 利用Java快速查找21位花朵数示例代码

    前言 本文主要给大家介绍了关于利用Java快速查找21位花朵数的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 以前备赛的时候遇到的算法题,求所有21位花朵数,分享一下,供大家参考,效率已经很高了. 示例代码 package com.jianggujin; import java.math.BigInteger; import java.util.ArrayList; import java.util.List; /** * 水仙花数 * * @author jian

  • Python实现七大查找算法的示例代码

    查找算法 -- 简介 查找(Searching)就是根据给定的某个值,在查找表中确定一个其关键字等于给定值的数据元素.     查找表(Search Table):由同一类型的数据元素构成的集合     关键字(Key):数据元素中某个数据项的值,又称为键值     主键(Primary Key):可唯一的标识某个数据元素或记录的关键字 查找表按照操作方式可分为:         1.静态查找表(Static Search Table):只做查找操作的查找表.它的主要操作是:         ①

  • Java实现查找算法的示例代码(二分查找、插值查找、斐波那契查找)

    目录 1.查找概述 2.顺序查找 3.二分查找 3.1 二分查找概述 3.2 二分查找实现 4.插值查找 4.1 插值查找概述 4.2 插值查找实现 5.斐波那契查找 5.1 斐波那契查找概述 5.2 斐波那契查找实现 5.3 总结 1.查找概述 查找表: 所有需要被查的数据所在的集合,我们给它一个统称叫查找表.查找表(Search Table)是由同一类型的数据元素(或记录)构成的集合. 查找(Searching): 根据给定的某个值,在查找表中确定一个其关键字等于给定值的数据元素(或记录).

  • Java实现的快速查找算法示例

    本文实例讲述了Java实现的快速查找算法.分享给大家供大家参考,具体如下: 快速查找算法,可以根据想要找的是第几个大的数,每次循环都能固定下来一个数在数组完整排完序之后的位置,每次循环都能定一个数的位置,如果当前固定的数的位置和用户要找的第几个数匹配,则就直接返回.例如我要找第二大的数,如果循环一次固定的数的下标是1,那就是当前需要找的数. 代码如下: // 快速查找算法 public static int quickSelect(int[] arr, int selectIndex) { in

  • php冒泡排序、快速排序、快速查找、二维数组去重实例分享

    一.冒泡排序 复制代码 代码如下: //冒泡排序function bubble_sort($array){    $count=count($array);    if($count <= 0){        return false;    }    for($i=0;$i<$count;$i++){        for($j=0;$j<$count-$i-1;$j++){            if( $array[$j] > $array[$j+1] ){        

随机推荐