使用Redis有序集合实现IP归属地查询详解

工作中经常遇到一类需求,根据 IP 地址段来查找 IP 对应的归属地信息。如果把查询过程放到关系型数据库中,会带来很大的 IO 消耗,速度也不能满足,显然是不合适的。

那有哪些更好的办法呢?为此做了一些尝试,下面来详细说明。

构建索引文件

在 GitHub 上看到一个ip2region 项目,作者通过生成一个包含有二级索引的文件来实现快速查询,查询速度足够快,毫秒级别。但如果想更新地址段或归属地信息,每次都要重新生成文件,并不是很方便。
不过还是推荐大家看看这个项目,其中建索引的思想还是很值得学习的。作者的开源项目中只有查询的相关代码,并没有生成索引文件的代码,我依照原理图写了一段生成索引文件的代码,如下:

# -*- coding:utf-8 -*-

import time
import socket
import struct

IP_REGION_FILE = './data/ip_to_region.db'

SUPER_BLOCK_LENGTH = 8
INDEX_BLOCK_LENGTH = 12
HEADER_INDEX_LENGTH = 8192

def generate_db_file():
  pointer = SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH

  region, index = '', ''

  # 文件格式
  # 1.0.0.0|1.0.0.255|澳大利亚|0|0|0|0
  # 1.0.1.0|1.0.3.255|中国|0|福建省|福州市|电信
  with open('./ip.merge.txt', 'r') as f:
    for line in f.readlines():
      item = line.strip().split('|')
      print item[0], item[1], item[2], item[3], item[4], item[5], item[6]
      start_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[0]))[0])
      end_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[1]))[0])
      region_item = '|'.join([item[2], item[3], item[4], item[5], item[6]])
      region += region_item

      ptr = struct.pack('I', int(bin(len(region_item))[2:].zfill(8) + bin(pointer)[2:].zfill(24), 2))
      index += start_ip + end_ip + ptr
      pointer += len(region_item)

  index_start_ptr = pointer
  index_end_ptr = pointer + len(index) - 12
  super_block = struct.pack('I', index_start_ptr) + struct.pack('I', index_end_ptr)

  n = 0
  header_index = ''
  for index_block in range(pointer, index_end_ptr, 8184):
    header_index_block_ip = index[n * 8184:n * 8184 + 4]
    header_index_block_ptr = index_block
    header_index += header_index_block_ip + struct.pack('I', header_index_block_ptr)

    n += 1

  header_index += index[len(index) - 12: len(index) - 8] + struct.pack('I', index_end_ptr)

  with open(IP_REGION_FILE, 'wb') as f:
    f.write(super_block)
    f.write(header_index)
    f.seek(SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH, 0)
    f.write(region)
    f.write(index)

if __name__ == '__main__':
  start_time = time.time()
  generate_db_file()

  print 'cost time: ', time.time() - start_time

使用 Redis 缓存

目前有两种方式对 IP 以及归属地信息进行缓存:

第一种是将起始 IP,结束 IP 以及中间所有 IP 转换成整型,然后以字符串方式,用转换后的 IP 作为 key,归属地信息作为 value 存入 Redis;

第二种是采用有序集合和散列方式,首先将起始 IP 和结束 IP 添加到有序集合 ip2cityid,城市 ID 作为成员,转换后的 IP 作为分值,然后再将城市 ID 和归属地信息添加到散列 cityid2city,城市 ID 作为 key,归属地信息作为 value。

第一种方式就不多做介绍了,简单粗暴,非常不推荐。查询速度当然很快,毫秒级别,但缺点也十分明显,我用 1000 条数据做了测试,缓存时间长,大概 20 分钟,占用空间大,将近 1G。

下面介绍第二种方式,直接看代码:

# generate_to_redis.py
# -*- coding:utf-8 -*-

import time
import json
from redis import Redis

def ip_to_num(x):
  return sum([256 ** j * int(i) for j, i in enumerate(x.split('.')[::-1])])

# 连接 Redis
conn = Redis(host='127.0.0.1', port=6379, db=10)

start_time = time.time()

# 文件格式
# 1.0.0.0|1.0.0.255|澳大利亚|0|0|0|0
# 1.0.1.0|1.0.3.255|中国|0|福建省|福州市|电信
with open('./ip.merge.txt', 'r') as f:
  i = 1
  for line in f.readlines():
    item = line.strip().split('|')
    # 将起始 IP 和结束 IP 添加到有序集合 ip2cityid
    # 成员分别是城市 ID 和 ID + #, 分值是根据 IP 计算的整数值
    conn.zadd('ip2cityid', str(i), ip_to_num(item[0]), str(i) + '#', ip_to_num(item[1]) + 1)
    # 将城市信息添加到散列 cityid2city,key 是城市 ID,值是城市信息的 json 序列
    conn.hset('cityid2city', str(i), json.dumps([item[2], item[3], item[4], item[5]]))

    i += 1

end_time = time.time()

print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)
# test.py
# -*- coding:utf-8 -*-

import sys
import time
import json
import socket
import struct
from redis import Redis

# 连接 Redis
conn = Redis(host='127.0.0.1', port=6379, db=10)

# 将 IP 转换成整数
ip = struct.unpack("!L", socket.inet_aton(sys.argv[1]))[0]

start_time = time.time()
# 将有序集合从大到小排序,取小于输入 IP 值的第一条数据
cityid = conn.zrevrangebyscore('ip2cityid', ip, 0, start=0, num=1)
# 如果返回 cityid 是空,或者匹配到了 # 号,说明没有找到对应地址段
if not cityid or cityid[0].endswith('#'):
  print 'no city info...'
else:
  # 根据城市 ID 到散列表取出城市信息
  ret = json.loads(conn.hget('cityid2city', cityid[0]))
  print ret[0], ret[1], ret[2]

end_time = time.time()
print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)
# python generate_to_redis.py
start_time: 1554300310.31, end_time: 1554300425.65, cost time: 115.333260059
# python test_2.py 1.0.16.0
日本 0 0
start_time: 1555081532.44, end_time: 1555081532.45, cost time: 0.000912189483643

测试数据大概 50 万条,缓存所用时间不到 2 分钟,占用内存 182M,查询速度毫秒级别。显而易见,这种方式更值得尝试。

zrevrangebyscore 方法的时间复杂度是 O(log(N)+M), N 为有序集的基数, M 为结果集的基数。可见当 N 的值越大,查询效率越慢,具体在多大的数据量还可以高效查询,这个有待验证。不过这个问题我觉得并不用担心,遇到了再说吧。

以上所述是小编给大家介绍的使用Redis有序集合实现IP归属地查询详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我们网站的支持!

(0)

相关推荐

  • Redis有序集合类型的操作_动力节点Java学院整理

    今天我们说一下Redis中最后一个数据类型 "有序集合类型",回首之前学过的几个数据结构,不知道你会不会由衷感叹,开源的世界真好,写这些代码的好心人真的要一生平安哈,不管我们想没想的到的东西,在这个世界上都已经存在着,曾几何时,我们想把所有数据按照数据结构模式组成后灌输到内存中,然而为了达到内存共享的方式,不得不将这块内存单独部署,同时还要考虑怎么序列化,何时序列互的问题,烦心事太多太多...后来才知道有redis这么个玩意,能把高级的,低级的数据结构单独包装到一个共享内存中(Redi

  • PHP实现redis限制单ip、单用户的访问次数功能示例

    本文实例讲述了PHP实现redis限制单ip.单用户的访问次数功能.分享给大家供大家参考,具体如下: 有时候我们需要限制一个api或页面访问的频率,例如单ip或单用户一分钟之内只能访问多少次 类似于这样的需求很容易用Redis来实现 <?php $redis = new Redis(); $redis->connect('127.0.0.1', 6379); $redis->auth("php001"); //这个key记录该ip的访问次数 也可改成用户id //$k

  • Redis教程之代理ip池设计方法详解

    前言 众所周知代理 ip 因为配置简单而且廉价,经常用来作为反反爬虫的手段,但是稳定性一直是其诟病.筛选出优质的代理 ip 并不简单,即使付费购买的代理 ip 源,卖家也不敢保证 100% 可用:另外代理 ip 的生命周期也无法预知,可能上一秒能用,下一秒就扑街了.基于这些原因,会给使用代理 ip 的爬虫程序带来很多不稳定的因素.要排除代理 ip 的影响,通常的做法是建一个代理 ip 池,每次请求前来池子取一个 ip,用完之后归还,保证池子里的 ip 都是可用的.本文接下来就探讨一下,如何使用

  • 利用Redis的有序集合实现排行榜功能实例代码

    前言 游戏中存在各种各样的排行榜,比如玩家的等级排名.分数排名等.玩家在排行榜中的名次是其实力的象征,位于榜单前列的玩家在虚拟世界中拥有无尚荣耀,所以名次也就成了核心玩家的追求目标. 一个典型的游戏排行榜包括以下常见功能: 能够记录每个玩家的分数: 能够对玩家的分数进行更新: 能够查询每个玩家的分数和名次: 能够按名次查询排名前N名的玩家: 能够查询排在指定玩家前后M名的玩家. 更进一步,上面的操作都需要在短时间内实时完成,这样才能最大程度发挥排行榜的效用. 由于一个玩家名次上升x位将会引起x+

  • Redis有序集合类型的常用命令小结

    一.有序集合类型 有序集合类型,大家从名字上应该就可以知道,实际上就是在集合类型上加了个有序而已.Redis中的有序集合类型,实际上是在集合类型上,为每个元素都关联一个分数,有序实际上说的是分数有序,我们根据分数的范围获取集合及其他操作.集合的元素依然是不能够相同的,但是分数可以相同. 下面列举有序集合和类型和列表类型的相似处: ①两者都是有序的(废话!) ②两者都可以获得某一范围的元素 下面列举区别: ①列表是链表实现的,靠近两边的数据读取极快,而元素过多后获取中间元素的速度则会很慢:有序集合

  • 详解PHP多个进程配合redis的有序集合实现大文件去重

    1.对一个大文件比如我的文件为 -rw-r--r-- 1 ubuntu ubuntu 9.1G Mar 1 17:53 2018-12-awk-uniq.txt 2.使用split命令切割成10个小文件 split -b 1000m 2018-12-awk-uniq.txt -b 按照字节切割 , 支持单位m和k 3.使用10个php进程读取文件 , 插入redis的有序集合结构中 , 重复的是插不进去的 ,因此可以起到去重的作用 <?php $file=$argv[1]; //守护进程 uma

  • 使用Redis有序集合实现IP归属地查询详解

    工作中经常遇到一类需求,根据 IP 地址段来查找 IP 对应的归属地信息.如果把查询过程放到关系型数据库中,会带来很大的 IO 消耗,速度也不能满足,显然是不合适的. 那有哪些更好的办法呢?为此做了一些尝试,下面来详细说明. 构建索引文件 在 GitHub 上看到一个ip2region 项目,作者通过生成一个包含有二级索引的文件来实现快速查询,查询速度足够快,毫秒级别.但如果想更新地址段或归属地信息,每次都要重新生成文件,并不是很方便. 不过还是推荐大家看看这个项目,其中建索引的思想还是很值得学

  • python 实现全球IP归属地查询工具

    # 写在前面,这篇文章的原创作者是Charles我只是在他这个程序的基础上边进行加工,另外有一些自己的改造 # 并都附上了注释和我自己的理解,这也是我一个学习的过程. # 附上大佬的GitHub地址:https://github.com/CharlesPikachu/Tools ''' Function: 根据IP地址查其对应的地理信息 Author: Charles 微信公众号: Charles的皮卡丘 ''' import IPy import time import random impo

  • Shell调用curl实现IP归属地查询的脚本

    可用于shell环境进行IP归属地查询 #!/bin/bash #传入IP参数 IP=$1 #使用百度开放地址库 url="http://opendata.baidu.com/api.php?query=${IP}&co=&resource_id=6006&t=1412300361645&ie=utf8&oe=gbk&cb=op_aladdin_callback&format=json&tn=baidu&cb=jQuery1

  • Java根据ip地址获取归属地实例详解

    目录 引言 Java 中是如何获取 IP 属地的 首先需要写一个 IP 获取的工具类 内置的三种查询算法 使用方法 项目用到的全部依赖 引言 最近,各大平台都新增了评论区显示发言者ip归属地的功能,例如哔哩哔哩,微博,知乎等等. Java 中是如何获取 IP 属地的 主要分为以下几步 通过 HttpServletRequest 对象,获取用户的 IP 地址 通过 IP 地址,获取对应的省份.城市 首先需要写一个 IP 获取的工具类 因为每一次用户的 Request 请求,都会携带上请求的 IP 

  • Redis整合SpringBoot的RedisTemplate实现类(实例详解)

    Redis整合SpringBoot>>RedisService 接口 package com.tuan.common.base.redis; import java.util.List; import java.util.Map; import java.util.Set; import java.util.concurrent.TimeUnit; public interface RedisService { //Redis 字符串(String) /** * 模糊值再删除 * @param

  • Java集合基础知识 List/Set/Map详解

    一.List Set 区别 List 有序,可重复: Set 无序,不重复: 二.List Set 实现类间区别及原理 Arraylist 底层实现使用Object[],数组查询效率高 扩容机制 1.6采用(capacity * 3)/ 2 + 1,默认容量为10: 1.7采用(capacity >> 2 + capacity)实现,位移动效率高于数学运算,右移一位等于乘以2倍: 读取速度快,写入会涉及到扩容,所以相对较慢. LinkedList底层采用双向链表,只记录 first 和 las

  • Springboot使用redis进行api防刷限流过程详解

    这篇文章主要介绍了Springboot使用redis进行api防刷限流过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 api限流的场景 限流的需求出现在许多常见的场景中 秒杀活动,有人使用软件恶意刷单抢货,需要限流防止机器参与活动 某api被各式各样系统广泛调用,严重消耗网络.内存等资源,需要合理限流 淘宝获取ip所在城市接口.微信公众号识别微信用户等开发接口,免费提供给用户时需要限流,更具有实时性和准确性的接口需要付费. api限流实

  • Java集合框架之Set和Map详解

    目录 Set接口 HashSet TreeSet Map接口 HashMap TreeMap Set接口 set接口等同于Collection接口,不过其方法的行为有更严谨的定义.set的add方法不允许增加重复的元素.要适当地定义set的equals方法:只要俩个set包含同样的元素就认为它们是相同的,而不要求这些元素有相同的顺序.hashCode方法的定义要保证包含相同元素的俩个set会得到相同的散列码. --Java核心技术 卷一 public interface Set<E> exte

随机推荐