python访问纯真IP数据库的代码

核心代码:

#!/usr/bin/env python
# -*- coding: utf-8 -*- 

from bisect import bisect 

_LIST1, _LIST2 = [], []
_INIT = False 

ip2int = lambda ip_str: reduce(lambda a, b: (a << 8) + b, [int(i) for i in ip_str.split('.')]) 

def _init():
global _LIST, _INIT
if not _INIT:
for l in open('ipdata.txt', 'rb'):
ip1, ip2 = l.split()[:2]
addr = ' '.join(l.split()[2:])
ip1, ip2 = ip2int(ip1), ip2int(ip2)
_LIST1.append(ip1)
_LIST2.append((ip1, ip2, addr))
_INIT = True 

def ip_from(ip):
_init()
i = ip2int(ip)
idx = bisect(_LIST1, i)
assert(idx > 0)
if len(_LIST1) <= idx:
return u'unknown ip address %s' % ip
else:
frm, to ,addr = _LIST2[idx - 1]
if frm <= i <= to:
return addr
else:
return u'unknown ip address %s' % ip 

if __name__ == '__main__':
print ip_from('115.238.54.106')
print ip_from('220.181.29.160')
print ip_from('115.238.54.107')
print ip_from('8.8.8.8')

代码打包下载 http://xiazai.jb51.net/201105/yuanma/ipaddress.7z

接下来为大家分享更完美的代码:

#!/usr/bin/env python
# coding: utf-8

'''用Python脚本查询纯真IP库

QQWry.Dat的格式如下:

+----------+
| 文件头 | (8字节)
+----------+
| 记录区 | (不定长)
+----------+
| 索引区 | (大小由文件头决定)
+----------+

文件头:4字节开始索引偏移值+4字节结尾索引偏移值

记录区: 每条IP记录格式 ==> IP地址[国家信息][地区信息]

  对于国家记录,可以有三种表示方式:

    字符串形式(IP记录第5字节不等于0x01和0x02的情况),
    重定向模式1(第5字节为0x01),则接下来3字节为国家信息存储地的偏移值
    重定向模式(第5字节为0x02),

  对于地区记录,可以有两种表示方式: 字符串形式和重定向

  最后一条规则:重定向模式1的国家记录后不能跟地区记录

索引区: 每条索引记录格式 ==> 4字节起始IP地址 + 3字节指向IP记录的偏移值

  索引区的IP和它指向的记录区一条记录中的IP构成一个IP范围。查询信息是这个
  范围内IP的信息

'''

import sys
import socket
from struct import pack, unpack

class IPInfo(object):
  '''QQWry.Dat数据库查询功能集合
  '''
  def __init__(self, dbname):
    ''' 初始化类,读取数据库内容为一个字符串,
    通过开始8字节确定数据库的索引信息'''

    self.dbname = dbname
    # f = file(dbname, 'r')

    # Demon注:在Windows下用'r'会有问题,会把\r\n转换成\n
    # 详见http://demon.tw/programming/python-open-mode.html
    # 还有Python文档中不提倡用file函数来打开文件,推荐用open
    f = open(dbname, 'rb')

    self.img = f.read()
    f.close()

    # QQWry.Dat文件的开始8字节是索引信息,前4字节是开始索引的偏移值,
    # 后4字节是结束索引的偏移值。
    # (self.firstIndex, self.lastIndex) = unpack('II', self.img[:8])

    # Demon注:unpack默认使用的endian是和机器有关的
    # Intel x86和AMD64(x86-64)是little-endian
    # Motorola 68000和PowerPC G5是big-endian
    # 而纯真数据库全部采用了little-endian字节序
    # 所以在某些big-endian的机器上原代码会出错
    (self.firstIndex, self.lastIndex) = unpack('<II', self.img[:8])

    # 每条索引长7字节,这里得到索引总个数
    self.indexCount = (self.lastIndex - self.firstIndex) / 7 + 1

  def getString(self, offset = 0):
    ''' 读取字符串信息,包括"国家"信息和"地区"信息

    QQWry.Dat的记录区每条信息都是一个以'\0'结尾的字符串'''

    o2 = self.img.find('\0', offset)
    #return self.img[offset:o2]
    # 有可能只有国家信息没有地区信息,
    gb2312_str = self.img[offset:o2]
    try:
      utf8_str = unicode(gb2312_str,'gb2312').encode('utf-8')
    except:
      return '未知'
    return utf8_str

  def getLong3(self, offset = 0):
    '''QQWry.Dat中的偏移记录都是3字节,本函数取得3字节的偏移量的常规表示
    QQWry.Dat使用“字符串“存储这些值'''
    s = self.img[offset: offset + 3]
    s += '\0'
    # unpack用一个'I'作为format,后面的字符串必须是4字节
    # return unpack('I', s)[0]

    # Demon注:和上面一样,强制使用little-endian
    return unpack('<I', s)[0]

  def getAreaAddr(self, offset = 0):
    ''' 通过给出偏移值,取得区域信息字符串,'''

    byte = ord(self.img[offset])
    if byte == 1 or byte == 2:
      # 第一个字节为1或者2时,取得2-4字节作为一个偏移量调用自己
      p = self.getLong3(offset + 1)
      return self.getAreaAddr(p)
    else:
      return self.getString(offset)

  def getAddr(self, offset, ip = 0):
    img = self.img
    o = offset
    byte = ord(img[o])

    if byte == 1:
      # 重定向模式1
      # [IP][0x01][国家和地区信息的绝对偏移地址]
      # 使用接下来的3字节作为偏移量调用字节取得信息
      return self.getAddr(self.getLong3(o + 1))

    if byte == 2:
      # 重定向模式2
      # [IP][0x02][国家信息的绝对偏移][地区信息字符串]
      # 使用国家信息偏移量调用自己取得字符串信息
      cArea = self.getAreaAddr(self.getLong3(o + 1))
      o += 4
      # 跳过前4字节取字符串作为地区信息
      aArea = self.getAreaAddr(o)
      return (cArea, aArea)

    if byte != 1 and byte != 2:
      # 最简单的IP记录形式,[IP][国家信息][地区信息]
      # 重定向模式1有种情况就是偏移量指向包含国家和地区信息两个字符串
      # 即偏移量指向的第一个字节不是1或2,就使用这里的分支
      # 简单地说:取连续取两个字符串!

      cArea = self.getString(o)
      #o += 2*len(cArea) + 1
      # 我们已经修改cArea为utf-8字符编码了,len取得的长度会有变,
      # 用下面方法得到offset

      o = self.img.find('\0',o) + 1
      aArea = self.getString(o)
      if aArea == "?":
        aArea = "电信"
      if aArea == "信":
        aArea = ""
      if aArea == "[":
        aArea = "联通"
      return (cArea, aArea)

  def find(self, ip, l, r):
    ''' 使用二分法查找网络字节编码的IP地址的索引记录'''
    if r - l <= 1:
      return l

    m = (l + r) / 2
    o = self.firstIndex + m * 7
    #new_ip = unpack('I', self.img[o: o+4])[0]

    # Demon注:和上面一样,强制使用little-endian
    new_ip = unpack('<I', self.img[o: o+4])[0]

    if ip <= new_ip:
      return self.find(ip, l, m)
    else:
      return self.find(ip, m, r)

  def getIPAddr(self, ip):
    ''' 调用其他函数,取得信息!'''
    # 使用网络字节编码IP地址
    ip = unpack('!I', socket.inet_aton(ip))[0]
    # 使用 self.find 函数查找ip的索引偏移
    i = self.find(ip, 0, self.indexCount - 1)
    # 得到索引记录
    o = self.firstIndex + i * 7
    # 索引记录格式是: 前4字节IP信息+3字节指向IP记录信息的偏移量
    # 这里就是使用后3字节作为偏移量得到其常规表示(QQWry.Dat用字符串表示值)
    o2 = self.getLong3(o + 4)
    # IP记录偏移值+4可以丢弃前4字节的IP地址信息。
    (c, a) = self.getAddr(o2 + 4)
    return (c, a)

  def output(self, first, last):
    for i in range(first, last):
      o = self.firstIndex + i * 7
      ip = socket.inet_ntoa(pack('!I', unpack('I', self.img[o:o+4])[0]))
      offset = self.getLong3(o + 4)
      (c, a) = self.getAddr(offset + 4)
      print "%s %d %s/%s" % (ip, offset, c, a)
def getIP(ip):
  import os
  _localDir=os.path.dirname(__file__)
  _curpath=os.path.normpath(os.path.join(os.getcwd(),_localDir))
  curpath=_curpath
  i = IPInfo(curpath+'/qqwry.dat')
  (c, a) = i.getIPAddr(ip)
  return c+a
def main():
  import os
  _localDir=os.path.dirname(__file__)
  _curpath=os.path.normpath(os.path.join(os.getcwd(),_localDir))
  curpath=_curpath
  i = IPInfo(curpath+'/qqwry.dat')
  if os.path.exists(sys.argv[1]):
    for line in open(sys.argv[1],"r").readlines():
      line = line.replace("\r","").replace("\n","")
      (c, a) = i.getIPAddr(line)
      # Demon注:如果是在Windows命令行中运行把编码转回gb2312以避免乱码
      if sys.platform == 'win32':
        c = unicode(c, 'utf-8').encode('gb2312')
        a = unicode(a, 'utf-8').encode('gb2312')
      print '%s %s/%s' % (line, c, a)
  else:
    (c, a) = i.getIPAddr(sys.argv[1])
    # Demon注:如果是在Windows命令行中运行把编码转回gb2312以避免乱码
    if sys.platform == 'win32':
      c = unicode(c, 'utf-8').encode('gb2312')
      a = unicode(a, 'utf-8').encode('gb2312')
    print '%s %s/%s' % (sys.argv[1], c, a)

if __name__ == '__main__':
  main()

用Python脚本查询纯真IP库QQWry.dat(Demon修改版)

由于要用 Python 读取一个和纯真IP数据库 QQWry.dat 格式差不多的 IPv6 数据库,所以在网上搜索了一下,在 LinuxTOY 看到了一个 Python 脚本,发现有一些小小的问题,于是修改了一下。

#!/usr/bin/env python
# coding: utf-8

# from: http://linuxtoy.org/files/pyip.py
# Blog: http://linuxtoy.org/archives/python-ip.html
# Modified by Demon
# Blog: http://demon.tw/programming/python-qqwry-dat.html

'''用Python脚本查询纯真IP库

QQWry.Dat的格式如下:

+----------+
| 文件头 | (8字节)
+----------+
| 记录区 | (不定长)
+----------+
| 索引区 | (大小由文件头决定)
+----------+

文件头:4字节开始索引偏移值+4字节结尾索引偏移值

记录区: 每条IP记录格式 ==> IP地址[国家信息][地区信息]

  对于国家记录,可以有三种表示方式:

    字符串形式(IP记录第5字节不等于0x01和0x02的情况),
    重定向模式1(第5字节为0x01),则接下来3字节为国家信息存储地的偏移值
    重定向模式(第5字节为0x02),

  对于地区记录,可以有两种表示方式: 字符串形式和重定向

  最后一条规则:重定向模式1的国家记录后不能跟地区记录

索引区: 每条索引记录格式 ==> 4字节起始IP地址 + 3字节指向IP记录的偏移值

  索引区的IP和它指向的记录区一条记录中的IP构成一个IP范围。查询信息是这个
  范围内IP的信息

'''

import sys
import socket
from struct import pack, unpack

class IPInfo(object):
  '''QQWry.Dat数据库查询功能集合
  '''
  def __init__(self, dbname):
    ''' 初始化类,读取数据库内容为一个字符串,
    通过开始8字节确定数据库的索引信息'''

    self.dbname = dbname
    # f = file(dbname, 'r')

    # Demon注:在Windows下用'r'会有问题,会把\r\n转换成\n
    # 详见http://demon.tw/programming/python-open-mode.html
    # 还有Python文档中不提倡用file函数来打开文件,推荐用open
    f = open(dbname, 'rb')

    self.img = f.read()
    f.close()

    # QQWry.Dat文件的开始8字节是索引信息,前4字节是开始索引的偏移值,
    # 后4字节是结束索引的偏移值。
    # (self.firstIndex, self.lastIndex) = unpack('II', self.img[:8])

    # Demon注:unpack默认使用的endian是和机器有关的
    # Intel x86和AMD64(x86-64)是little-endian
    # Motorola 68000和PowerPC G5是big-endian
    # 而纯真数据库全部采用了little-endian字节序
    # 所以在某些big-endian的机器上原代码会出错
    (self.firstIndex, self.lastIndex) = unpack('<II', self.img[:8])

    # 每条索引长7字节,这里得到索引总个数
    self.indexCount = (self.lastIndex - self.firstIndex) / 7 + 1

  def getString(self, offset = 0):
    ''' 读取字符串信息,包括"国家"信息和"地区"信息

    QQWry.Dat的记录区每条信息都是一个以'\0'结尾的字符串'''

    o2 = self.img.find('\0', offset)
    #return self.img[offset:o2]
    # 有可能只有国家信息没有地区信息,
    gb2312_str = self.img[offset:o2]
    try:
      utf8_str = unicode(gb2312_str,'gb2312').encode('utf-8')
    except:
      return '未知'
    return utf8_str

  def getLong3(self, offset = 0):
    '''QQWry.Dat中的偏移记录都是3字节,本函数取得3字节的偏移量的常规表示
    QQWry.Dat使用“字符串“存储这些值'''
    s = self.img[offset: offset + 3]
    s += '\0'
    # unpack用一个'I'作为format,后面的字符串必须是4字节
    # return unpack('I', s)[0]

    # Demon注:和上面一样,强制使用little-endian
    return unpack('<I', s)[0]

  def getAreaAddr(self, offset = 0):
    ''' 通过给出偏移值,取得区域信息字符串,'''

    byte = ord(self.img[offset])
    if byte == 1 or byte == 2:
      # 第一个字节为1或者2时,取得2-4字节作为一个偏移量调用自己
      p = self.getLong3(offset + 1)
      return self.getAreaAddr(p)
    else:
      return self.getString(offset)

  def getAddr(self, offset, ip = 0):
    img = self.img
    o = offset
    byte = ord(img[o])

    if byte == 1:
      # 重定向模式1
      # [IP][0x01][国家和地区信息的绝对偏移地址]
      # 使用接下来的3字节作为偏移量调用字节取得信息
      return self.getAddr(self.getLong3(o + 1))

    if byte == 2:
      # 重定向模式2
      # [IP][0x02][国家信息的绝对偏移][地区信息字符串]
      # 使用国家信息偏移量调用自己取得字符串信息
      cArea = self.getAreaAddr(self.getLong3(o + 1))
      o += 4
      # 跳过前4字节取字符串作为地区信息
      aArea = self.getAreaAddr(o)
      return (cArea, aArea)

    if byte != 1 and byte != 2:
      # 最简单的IP记录形式,[IP][国家信息][地区信息]
      # 重定向模式1有种情况就是偏移量指向包含国家和地区信息两个字符串
      # 即偏移量指向的第一个字节不是1或2,就使用这里的分支
      # 简单地说:取连续取两个字符串!

      cArea = self.getString(o)
      #o += len(cArea) + 1
      # 我们已经修改cArea为utf-8字符编码了,len取得的长度会有变,
      # 用下面方法得到offset
      o = self.img.find('\0',o) + 1
      aArea = self.getString(o)
      return (cArea, aArea)

  def find(self, ip, l, r):
    ''' 使用二分法查找网络字节编码的IP地址的索引记录'''
    if r - l <= 1:
      return l

    m = (l + r) / 2
    o = self.firstIndex + m * 7
    #new_ip = unpack('I', self.img[o: o+4])[0]

    # Demon注:和上面一样,强制使用little-endian
    new_ip = unpack('<I', self.img[o: o+4])[0]

    if ip <= new_ip:
      return self.find(ip, l, m)
    else:
      return self.find(ip, m, r)

  def getIPAddr(self, ip):
    ''' 调用其他函数,取得信息!'''
    # 使用网络字节编码IP地址
    ip = unpack('!I', socket.inet_aton(ip))[0]
    # 使用 self.find 函数查找ip的索引偏移
    i = self.find(ip, 0, self.indexCount - 1)
    # 得到索引记录
    o = self.firstIndex + i * 7
    # 索引记录格式是: 前4字节IP信息+3字节指向IP记录信息的偏移量
    # 这里就是使用后3字节作为偏移量得到其常规表示(QQWry.Dat用字符串表示值)
    o2 = self.getLong3(o + 4)
    # IP记录偏移值+4可以丢弃前4字节的IP地址信息。
    (c, a) = self.getAddr(o2 + 4)
    return (c, a)

  def output(self, first, last):
    for i in range(first, last):
      o = self.firstIndex + i * 7
      ip = socket.inet_ntoa(pack('!I', unpack('I', self.img[o:o+4])[0]))
      offset = self.getLong3(o + 4)
      (c, a) = self.getAddr(offset + 4)
      print "%s %d %s/%s" % (ip, offset, c, a)

def main():
  i = IPInfo('QQWry.Dat')
  (c, a) = i.getIPAddr(sys.argv[1])

  # Demon注:如果是在Windows命令行中运行把编码转回gb2312以避免乱码
  if sys.platform == 'win32':
    c = unicode(c, 'utf-8').encode('gb2312')
    a = unicode(a, 'utf-8').encode('gb2312')
  print '%s %s/%s' % (sys.argv[1], c, a)

if __name__ == '__main__':
  main()

# changelog
# 时间:2009年5月29日
# 1. 工具下面网友的建议,修改"o += len(cArea) + 1"
#  http://linuxtoy.org/archives/python-ip.html#comment-113960
#  因为这个时候我已经把得到的字符串变成utf-8编码了,长度会有变化!
(0)

相关推荐

  • Python访问纯真IP数据库脚本分享

    项目中有这样的需求,通过IP地址判断客户端是网通的还是电信的.从同事那拿了个纯文本的IP纯真数据库,用Python写了一个小程序,感觉挺好的.下面给出实现源码: #!/usr/bin/env python # -*- coding: utf-8 -*- from bisect import bisect _LIST1, _LIST2 = [], [] _INIT = False ip2int = lambda ip_str: reduce(lambda a, b: (a << 8) + b,

  • Python实现一个转存纯真IP数据库的脚本分享

    前言 之前写过很多关于扫描脚本的文章,一直都没写自己的扫描IP段是哪里搞来的,也会有朋友经常来问一些扫描经验,说实话我觉得这个工具并没有实际的技术含量,但是能提高工作效率,就共享出来给大家耍耍- 谈到扫描经验,我个人通常都会针对不同的设备,不同的应用选择不同类型的段. 比如我现在扫描的目标是一款电信光猫,那自然是选择电信的IP段,光猫一般是家庭用户,我们筛选下家庭用户的活跃IP段,这样我们就有针对性了. 再比如我现在想扫一款企业路由设备,那么我就可以选择企业公司多的段. 纯真IP真心是个不错的工

  • python访问纯真IP数据库的代码

    核心代码: #!/usr/bin/env python # -*- coding: utf-8 -*- from bisect import bisect _LIST1, _LIST2 = [], [] _INIT = False ip2int = lambda ip_str: reduce(lambda a, b: (a << 8) + b, [int(i) for i in ip_str.split('.')]) def _init(): global _LIST, _INIT if no

  • C#读取QQ纯真IP数据库QQWry.Dat的代码

    纯真版QQ IP数据库 复制代码 代码如下: using System; using System.Collections.Generic; using System.Text; using System.IO; using System.Web; using System.Configuration; namespace BLL { public class IPLocationSearch { private static readonly QQWry qq = new QQWry(Conf

  • 读取纯真IP数据库的公用组件接口QQWry.NET

    这是一个读取纯真IP数据库的公用组件接口,我是通过luma的<纯真IP数据库格式详解>了解了纯真IP数据库数据格式,并且基于网络上的一个IPLocation.dll源码的基础改编而来.我为什么要改编这个组件呢?因为我看到这个组件在使用过程中,每次都要打开文件流,并且整个接口使用静态的属性.并不适合Web环境下,多线程并发查询的需求,并且在性能上也不是最优.有了luma的格式详解,和现有的IPLocation.dll的源码,使我的工作变得异常的简单.出现的一个小错误,也是经过一次调试后就解决了.

  • PHP获取IP地址所在地信息的实例(使用纯真IP数据库qqwry.dat)

    如下所示: <?php $data = '254.254.254.254'; echo ip2long($data); function getIP() { if(getenv("HTTP_CLIENT_IP") && strcasecmp(getenv("HTTP_CLIENT_IP"), "unknown")) $ip = getenv("HTTP_CLIENT_IP"); elseif(getenv

  • 纯真IP数据库格式图文详解

    摘要 网络上的IP数据库以纯真版的最为流行,LumaQQ也采用了纯真版IP数据库做为IP查询功能的基础.不过关于其格式的文档却非常之少,后来终于在网上找到了一份文档,得以了解其内幕,不过那份文档寥寥数语,也是颇为耐心才读明白.在这里我重写一份,以此做为LumaQQ开发者文档的一部分,我想还是必要的.本文详细介绍了纯真IP数据库的格式,并且给出了一些Demo以供参考. Luma, 清华大学修改日期: 2005/01/14 Note: 在此感谢纯真IP数据库作者金狐和那唯一一份文档的作者. 修改历史

  • python shell根据ip获取主机名代码示例

    这篇文章里我们主要分享了python中shell 根据 ip 获取 hostname 或根据 hostname 获取 ip的代码,具体介绍如下. 笔者有时候需要根据hostname获取ip 比如根据machine.company.com 获得ip 10.173.14.117 方法1:利用 socket 模块 里的 gethostbyname 函数 代码如下,使用socket模块 >>> import socket >>> socket.gethostbyname(&qu

  • python将数据插入数据库的代码分享

    python将数据插入数据库的方法: 首先读入数据并建立数据库连接: 然后创建数据库: 接着执行插入数据语句,迭代读取每行数据: 最后关闭数据库连接即可. 比如现在我们要将如下Excel数据表格插入到MySQL数据库中,该如何实现呢? 实现代码: #导入需要使用到的数据模块 import pandas as pd import pymysql #读入数据 filepath = 'E:\_DataSet\catering_sale.xls' data = pd.read_excel(filepat

  • php读取纯真ip数据库使用示例

    复制代码 代码如下: <?php/*-------------------------------------------------- ip2address [qqwry.dat]--------------------------------------------------*/ class ip { var $fh; //IP数据库文件句柄 var $first; //第一条索引 var $last; //最后一条索引 var $total; //索引总数 //构造函数 function

随机推荐