用python找出那些被“标记”的照片

源码传送门

环境准备

下面的两个第三方模块都可以直接通过pip快速安装,这里使用py36作为运行环境。

思路

  1. 遍历目录
  2. 拉取数据集合
  3. 遍历集合取得exif
  4. exif信息整理,并获取实体地址
  5. 拷贝文件到结果样本目录
  6. 生成json报告文件

基础知识

下面是现今相片中会存在与GPS相关的关键字,大牛亦可一比带过~ [参考]

{
 "GPSVersionID": "GPS版本",
 "GPSLatitudeRef": "南北纬",
 "GPSLatitude": "纬度",
 "GPSLongitudeRef": "东西经",
 "GPSLongitude": "经度",
 "GPSAltitudeRef": "海拔参照值",
 "GPSAltitude": "海拔",
 "GPSTimeStamp": "GPS时间戳",
 "GPSSatellites": "测量的卫星",
 "GPSStatus": "接收器状态",
 "GPSMeasureMode": "测量模式",
 "GPSDOP": "测量精度",
 "GPSSpeedRef": "速度单位",
 "GPSSpeed": "GPS接收器速度",
 "GPSTrackRef": "移动方位参照",
 "GPSTrack": "移动方位",
 "GPSImgDirectionRef": "图像方位参照",
 "GPSImgDirection": "图像方位",
 "GPSMapDatum": "地理测量资料",
 "GPSDestLatitudeRef": "目标纬度参照",
 "GPSDestLatitude": "目标纬度",
 "GPSDestLongitudeRef": "目标经度参照",
 "GPSDestLongitude": "目标经度",
 "GPSDestBearingRef": "目标方位参照",
 "GPSDestBearing": "目标方位",
 "GPSDestDistanceRef": "目标距离参照",
 "GPSDestDistance": "目标距离",
 "GPSProcessingMethod": "GPS处理方法名",
 "GPSAreaInformation": "GPS区功能变数名",
 "GPSDateStamp": "GPS日期",
 "GPSDifferential": "GPS修正"
}

初始化

考虑到exifread的模块中有大量的logging输出,这里将它的level级别调到最高。 然后下边的KEY是某站在高德地图API的时候遗留下来的 我也很尴尬。。就当福利了

import os
import time
import json
import random
import logging
import requests
import exifread
logging.basicConfig(level=logging.CRITICAL)
KEY = "169d2dd7829fe45690fabec812d05bc3"

主逻辑函数

def main():
 # 预设后缀列表
 types = ["bmp", "jpg", "tiff", "gif", "png"]
 #结果数据集合
 picex = []
 # 文件存储路径
 saves = "$" + input("| SavePath: ").strip()
 # 文件搜索路径 并遍历所有文件返回文件路径列表
 pools = jpgwalk(input("| FindPath: "), types)
 #存储目录
 savep = "%s/%s" % (os.getcwd().replace("\\", "/"), saves)
 if savep in pools:
 pools.remove(savep)
 # 遍历数据集并获取exif信息
 for path in pools:
 res = getEXIF(path)
 if res:
  picex.append(res)
 # 结果报告
 print("| Result %s" % len(picex))
 # 如果存在结果 保存结果到json并讲相关图片复制到该目录下
 if picex:
 #创建目录
 if not os.path.exists(saves):
  os.mkdir(saves)
 #生成一个4格缩进的json文件
 with open("%s/%s.json" % (saves, saves), "wb") as f:
  f.write(json.dumps(picex, ensure_ascii=False, indent=4).encode("utf8"))
 #copy图像到该目录
 for item in picex:
  source_path = item["Filename"]
  with open("%s/%s" % (saves, source_path.split("/")[-1]), "wb") as f_in:
  with open(source_path, "rb") as f_out:
   f_in.write(f_out.read())

遍历方法

遍历指定及其所有下级目录,并返回全部的图片的路径集合,这里要注意的是每次扫描后的拷贝行为都会生成缓存,所以通过指定 $ 来避开。

# 获取指导目录全部的图片路径
def jpgwalk(path, types):
 _start = time.time()
 _pools = []
 # 遍历该目录 并判断files后缀 如符合规则则拼接路径
 for _root, _dirs, _files in os.walk(path):
 _pools.extend([_root.replace("\\", "/") + "/" +
   _item for _item in _files if _item.split(".")[-1].lower() in types and "$" not in _root])
 #报告消耗时间
 print("| Find %s \n| Time %.3fs" % (len(_pools), time.time() - _start))
 return _pools

经纬度格式化

度分秒转浮点,方便api调用查询,因为存在一些诡异的数据比如 1/0,所以默认返回0

def cg(i):
 try:
 _ii = [float(eval(x)) for x in i[1:][:-1].split(', ')]
 _res = _ii[0] + _ii[1] / 60 + _ii[2] / 3600
 return _res
 except ZeroDivisionError:
 return 0

EXIF信息整理

考虑到大部分的设备还未开始支持朝向、速度、测量依据等关键字,这里暂时只使用比较常见的,如有需要的朋友可以自行添加。毕竟得到的信息越多对社工有更大的帮助。

def getEXIF(filepath):
 #基础关键字
 _showlist = [
 'GPS GPSDOP',
 'GPS GPSMeasureMode',
 'GPS GPSAltitudeRef',
 'GPS GPSAltitude',
 'Image Software',
 'Image Model',
 'Image Make'
 ]
 #GPS关键字
 _XYlist = ["GPS GPSLatitude", "GPS GPSLongitude"]
 #时间关键字
 _TimeList = ["EXIF DateTimeOrigina", "Image DateTime", "GPS GPSDate"]
 #初始化结果字典
 _infos = {
 'Filename': filepath
 }
 with open(filepath, "rb") as _files:
 _tags = None
 # 尝试去的EXIF信息
 try:
  _tags = exifread.process_file(_files)
 except KeyError:
  return
 # 判断是否存在地理位置信息
 _tagkeys = _tags.keys()
 if _tags and len(set(_tagkeys) & set(_XYlist)) == 2 and cg(str(_tags["GPS GPSLongitude"])) != 0.0:
  for _item in sorted(_tagkeys):
  if _item in _showlist:
   _infos[_item.split()[-1]] = str(_tags[_item]).strip()
  # 经纬度取值
  _infos["GPS"] = (cg(str(_tags["GPS GPSLatitude"])) * float(1.0 if str(_tags.get("GPS GPSLatitudeRef", "N")) == "N" else -1.0),
    cg(str(_tags["GPS GPSLongitude"])) * float(1.0 if str(_tags.get("GPS GPSLongitudeRef", "E")) == "E" else -1.0))
  # 获取实体地址
  _infos["address"] = address(_infos["GPS"])
  # 获取照片海拔高度
  if "GPS GPSAltitudeRef" in _tagkeys:
  try:
   _infos["GPSAltitude"] = eval(_infos["GPSAltitude"])
  except ZeroDivisionError:
   _infos["GPSAltitude"] = 0
  _infos["GPSAltitude"] = "距%s%.2f米" % ("地面" if int(
   _infos["GPSAltitudeRef"]) == 1 else "海平面", _infos["GPSAltitude"])
  del _infos["GPSAltitudeRef"]
  # 获取可用时间
  _timeitem = list(set(_TimeList) & set(_tagkeys))
  if _timeitem:
  _infos["Dates"] = str(_tags[_timeitem[0]])
  return _infos

地址转换

一个简单的爬虫,调用高德地图api进行坐标转换,考虑到原本是跨域,这里添加基础的反防爬代码。这里有个小细节,海外的一律都取不到(包括台湾),可以通过更换googlemap的api来实现全球查询。

def address(gps):
 global KEY
 try:
 # 随机UA
 _ulist = [
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1",
  "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0",
  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; 360SE)",
  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
  "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)",
  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)",
  "Mozilla/5.0 (X11; U; Linux i686; rv:1.7.3) Gecko/20040913 Firefox/0.10",
  "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; ja) Presto/2.10.289 Version/12.00",
  "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36"
 ]
 # 伪造header
 _header = {
  "User-Agent": random.choice(_ulist),
  "Accept": "text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01",
  "Accept-Encoding": "gzip, deflate, sdch",
  "Accept-Language": "zh-CN,zh;q=0.8",
  "Referer": "http://www.gpsspg.com",
 }
 _res = requests.get(
  "http://restapi.amap.com/v3/geocode/regeo?key={2}&s=rsv3&location={1},{0}&platform=JS&logversion=2.0&sdkversion=1.3&appname=http%3A%2F%2Fwww.gpsspg.com%2Fiframe%2Fmaps%2Famap_161128.htm%3Fmapi%3D3&csid=945C5A2C-E67F-4362-B881-9608D9BC9913".format(gps[0], gps[1], KEY), headers=_header, timeout=(5, 5))
 _json = _res.json()
 # 判断是否取得数据
 if _json and _json["status"] == "1" and _json["info"] == "OK":
  # 返回对应地址
  return _json.get("regeocode").get("formatted_address")
 except Exception as e:
 pass

实例

运行该代码 然后输入保存文件夹名和扫描位置即可

这边可以看到8019张中有396张存在有效的地理位置,打码的地方就不解释了,各位老司机~后期打算加入图像识别,和相似度识别。

下面给大家分享小编收集整理的python专题知识:

python基本语法

python多线程学习教程

python排序算法大全

以上所述是小编给大家介绍的用python找出那些被“标记”的照片,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我们网站的支持!

(0)

相关推荐

  • python简单实现旋转图片的方法

    本文实例讲述了python简单实现旋转图片的方法.分享给大家供大家参考.具体实现方法如下: # rotate an image counter-clockwise using the PIL image library # free from: http://www.pythonware.com/products/pil/index.htm # make sure to install PIL after your regular python package is installed impo

  • Python实现文件按照日期命名的方法

    本文实例讲述了Python实现文件按照日期命名的方法.分享给大家供大家参考.具体实现方法如下: 这里实现文件按照创建的时期批量重命名的功能 # -*- coding: utf-8 -*- import os import time import datetime rootDir = "I:/1/" dic={} for dirName,subDirs,fileList in os.walk(rootDir): print dirName for fn in fileList: fnpa

  • Python实现获取照片拍摄日期并重命名的方法

    本文实例讲述了Python实现获取照片拍摄日期并重命名的方法.分享给大家供大家参考,具体如下: python获取照片的拍摄日期并重命名.不支持重复处理的中断. 重命名为:拍摄日期__原文件名 import os import exifread def getExif(filename): FIELD = 'EXIF DateTimeOriginal' fd = open(filename, 'rb') tags = exifread.process_file(fd) fd.close() if

  • Python实现拼接多张图片的方法

    本文实例讲述了Python实现拼接多张图片的方法.分享给大家供大家参考.具体分析如下:   这里所述计划实现如下操作:   ① 用Latex写原始博文,生成PDF文档; ② 将PDF转成高清的PNG格式的图片; ③ 将多个PNG格式的图片合并成一大张图片; ④ 将最终的大图片直接上传到博文编辑器中 好了,如果将PDF文档转换成其他的图片格式呢?我建议windowns下可用Adobe  Acrobat X Pro软件完成这个工作,操作步骤如下面两图所示.注意在图二中一定要自己指定一个分辨率,不用用

  • python实现识别相似图片小结

    文章简介 在网上看到python做图像识别的相关文章后,真心感觉python的功能实在太强大,因此将这些文章总结一下,建立一下自己的知识体系. 当然了,图像识别这个话题作为计算机科学的一个分支,不可能就在本文简单几句就说清,所以本文只作基本算法的科普向. 如有错误,请多包涵和多多指教. 参考的文章和图片来源会在底部一一列出. 以及本篇文章所用的代码都会在底下给出github地址. 安装相关库 python用作图像处理的相关库主要有openCV(C++编写,提供了python语言的接口),PIL,

  • Python实现自动为照片添加日期并分类的方法

    本文实例讲述了Python实现自动为照片添加日期并分类的方法.分享给大家供大家参考,具体如下: 小时候没怎么照相,所以跟别人说小时候特别帅他们都不信.小外甥女出生了,我给买了个照相机,让她多照相.可惜他舅目前还是个屌丝,买了个700的屌丝照相机,竟然没有自动加日期的功能.试了几个小软件,都不好用,大的图像软件咱又不会用.身为一个计算机科学与技术专业的学生,只能自立更生了. 听说Python有个图形库,不错,在照片上打日期很容易,于是我就下了这个库.对Python不熟,一面看着手册一面写的.完成了

  • python处理图片之PIL模块简单使用方法

    本文实例讲述了python处理图片之PIL模块简单使用方法.分享给大家供大家参考.具体实现方法如下: #!/usr/bin/env python #encoding: utf-8 import Image class myimg: def __init__(self, open_file, save_file): self.img = Image.open(open_file) self.save_file = save_file def Change_Size(self, percent=10

  • python批量下载图片的三种方法

    有三种方法,一是用微软提供的扩展库win32com来操作IE,二是用selenium的webdriver,三是用python自带的HTMLParser解析.win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到).selenium则提供了Chrome,IE,FireFox等的支持,每种浏览器都有execute_script和find_element_by_xx方法,可以方便的执行js脚本(包括修改元素)和读取html里面的元素.不足是selenium只提供对py

  • Python比较两个图片相似度的方法

    本文实例讲述了Python比较两个图片相似度的方法.分享给大家供大家参考.具体分析如下: 这段代码实用pil模块比较两个图片的相似度,根据实际实用,代码虽短但效果不错,还是非常靠谱的,前提是图片要大一些,太小的图片不好比较.附件提供完整测试代码和对比用的图片. 复制代码 代码如下: #!/usr/bin/python # Filename: histsimilar.py # -*- coding: utf-8 -*- import Image def make_regalur_image(img

  • python抓取网页中图片并保存到本地

    在上篇文章给大家分享PHP源码批量抓取远程网页图片并保存到本地的实现方法,感兴趣的朋友可以点击了解详情. #-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file_extension(file): return os.path.splitext(file)[1] '''創建文件目录,并返回该目录''' def mkdir(path): # 去除左右两边的

随机推荐