Python实现的删除重复文件或图片功能示例【去重】
本文实例讲述了Python实现的删除重复文件或图片功能。分享给大家供大家参考,具体如下:
通过python爬虫或其他方式保存的图片文件通常包含一些重复的图片或文件,
通过下面的python代码可以将重复的文件删除以达到去重的目的。其中,文件目录结构如下图:
# /usr/bin/env python # -*- coding:utf-8 -*- # 运行的代码文件要放到删除重复的文件或图片所包含的目录中 import os import hashlib def filecount(): filecount = int(os.popen('dir /B |find /V /C ""').read()) return (filecount) def md5sum(filename): f = open(filename, 'rb') md5 = hashlib.md5() while True: fb = f.read(8096) if not fb: break md5.update(fb) f.close() return (md5.hexdigest()) def delfile(): all_md5 = {} filedir = os.walk(os.getcwd()) for i in filedir: for tlie in i[2]: if md5sum(tlie) in all_md5.values(): os.remove(tlie) else: all_md5[tlie] = md5sum(tlie) if __name__ == '__main__': oldf = filecount() print('去重前有', oldf, '个文件\n\n\n请稍等正在删除重复文件...') delfile() print('\n\n去重后剩', filecount(), '个文件') print('\n\n一共删除了', oldf - filecount(), '个文件\n\n')
更多关于Python相关内容感兴趣的读者可查看本站专题:《Python文件与目录操作技巧汇总》、《Python文本文件操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》
希望本文所述对大家Python程序设计有所帮助。
相关推荐
-
python查找重复图片并删除(图片去重)
本文实例为大家分享了python查找重复图片并删除的具体代码,供大家参考,具体内容如下 和网络爬虫配套的,也可单独使用,从网上爬下来的图片重复太多,代码支持识别不同尺寸大小一致的图片,并把重复的图片删除,只保留第一份. # -*- coding: utf-8 -*- import cv2 import numpy as np import os,sys,types def cmpandremove2(path): dirs = os.listdir(path) dirs.sort() if le
-
python删除文件夹下相同文件和无法打开的图片
前天不小心把硬盘格式化了,丢了好多照片,后来用Recuva这款软件成功把文件恢复过来,可是恢复的文件中有好多重复的文件和无法打开的图片,所以写了两个python的小程序用来解决这个问题 删除相同文件: #coding=utf-8 import os import os.path import Image import hashlib def get_md5(filename): m = hashlib.md5() mfile = open(filename, "rb") m.updat
-
删除目录下相同文件的python代码(逐级优化)
这两天闲来无事在百度上淘了点图片,不多,也就几万张吧,其中有不少美女图片奥!哈哈!这里暂且不说图片是怎么获得的,咱聊聊得到图片以后发生的事. 遇到的第一个问题就是有些图片没有后缀名.在windows下,没有后缀名的文件是不能正确被识别的,没有预览,打开时还要选择打开方式,费劲!这个问题比较容易解决,给每个图片加上后缀名就是了.没有后缀名的图片也不多,不到1000张吧,一张一张地改很麻烦,还好我是学计算机的,上午写了个程序批量修改http://www.jb51.net/article/30400.
-
python判断图片宽度和高度后删除图片的方法
本文实例讲述了python判断图片宽度和高度后删除图片的方法.分享给大家供大家参考.具体分析如下: Image对象有open方法却没有close方法,如果打开图片,判断图片高度和宽度,判断完成后希望删除或者给图片改名,是无法操作的,这段代码可以解决这个问题,注意open函数打开图片文件要使用二进制方式,及参数使用'rb',有的文章给出的只有个'r'参数,Image是无法open的 import os import Image fileName = 'c:/py/jb51.jpg' fp = op
-
Python实现的删除重复文件或图片功能示例【去重】
本文实例讲述了Python实现的删除重复文件或图片功能.分享给大家供大家参考,具体如下: 通过python爬虫或其他方式保存的图片文件通常包含一些重复的图片或文件, 通过下面的python代码可以将重复的文件删除以达到去重的目的.其中,文件目录结构如下图: # /usr/bin/env python # -*- coding:utf-8 -*- # 运行的代码文件要放到删除重复的文件或图片所包含的目录中 import os import hashlib def filecount(): file
-
Python实现删除重复文件的示例代码
此程序主要是针对某个目录下的全部文件进行筛选,会删除重复的文件. 原理很简单,会计算每个文件的哈希,将哈希存入一个字典,文件名对应哈希. import os import hashlib def hash_file(filename): """Return the SHA-1 hash of the file content.""" h = hashlib.sha1() with open(filename, 'rb') as f: while
-
详解如何使用Python实现删除重复文件
目录 Python自动化办公之删除重复文件 思路介绍 源码解说 知识拓展 Python自动化办公之删除重复文件 思路介绍 两层判断: 1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留: 2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除. 源码解说 from pathlib import Path import hashlib def getmd5(filename): # 接收文件路径,返回文件md5值 with open(filename, 'rb') as
-
python实现自动清理重复文件
前言 大家好,又到了Python办公自动化系列. 今天分享一个系统层面的自动化案例: 「给定一个文件夹,使用Python检查给定文件夹下有无文件重复,若存在重复则删除」 主要涉及的知识点有: os模块综合应用 glob模块综合应用 利用filecmp模块比较两个文件 步骤分析 该程序实现的逻辑可以具化为: 遍历获取给定文件夹下的所有文件,然后通过嵌套循环两两比较文件是否相同,如果相同则删除后者. 实现问题的关键就变成了? 如何判断两个文件是否相同? 在这里我们可以使用filecmp模块,来看看官
-
Python实现列表删除重复元素的三种常用方法分析
本文实例讲述了Python实现列表删除重复元素的三种常用方法.分享给大家供大家参考,具体如下: 给定一个列表,要求删除列表中重复元素. listA = ['python','语','言','是','一','门','动','态','语','言'] 方法1,对列表调用排序,从末尾依次比较相邻两个元素,遇重复元素则删除,否则指针左移一位重复上述过程: def deleteDuplicatedElementFromList(list): list.sort(); print("sorted list:%
-
python无序链表删除重复项的方法
题目描述: 给定一个没有排序的链表,去掉重复项,并保留原顺序 如: 1->3->1->5->5->7,去掉重复项后变为:1->3->5->7 方法: 顺序删除 递归删除 1.顺序删除 由于这种方法采用双重循环对链表进行遍历,因此,时间复杂度为O(n**2) 在遍历链表的过程中,使用了常数个额外的指针变量来保存当前遍历的结点,前驱结点和被删除的结点,所以空间复杂度为O(1) #!/usr/bin/env python3 # -*- coding: utf-8
-
Python使用urlretrieve实现直接远程下载图片的示例代码
在实现爬虫任务时,经常需要将一些图片下载到本地当中.那么在python中除了通过open()函数,以二进制写入方式来下载图片以外,还有什么其他方式吗?本文将使用urlretrieve实现直接远程下载图片. 下面我们再来看看 urllib 模块提供的 urlretrieve() 函数.urlretrieve() 方法直接将远程数据下载到本地. >>> help(urllib.urlretrieve) Help on function urlretrieve in module urllib
-
Java 添加、替换、删除PDF中的图片的示例代码
概述 本文介绍通过java程序向PDF文档添加图片,以及替换和删除PDF中已有的图片.另外,关于图片的操作还可参考设置PDF 图片背景.设置PDF图片水印.读取PDF中的图片.将PDF保存为图片等文章. 工具:Free Spire.PDF for Java (免费版) Jar获取及导入:官网下载,并解压将lib文件夹下的jar文件导入java程序,或者通过maven仓库下载并导入. jar导入效果: Java代码示例 [示例1]添加图片到PDF import com.spire.pdf.*; i
-
php+ajax实现异步上传文件或图片功能
本文为大家分享了ajax异步上传文件或图片功能的具体代码,供大家参考,具体内容如下 //html代码 <form enctype="multipart/form-data" id="upForm"> <input type="file" name="file" ><br><br> <input type="button" value="提交&q
-
Ubuntu下使用Python实现游戏制作中的切分图片功能
本文实例讲述了Ubuntu下使用Python实现游戏制作中的切分图片功能.分享给大家供大家参考,具体如下: why 拿到一个人物行走的素材,要用TexturePacker打包.TexturePacker打包后,助于游戏加载图片效率,且比较好管理. 目前得到一张整图,无法直接导入到TexturePacker. what 切片:使用切片将源图像分成许多的功能区域. how 1 ubuntu下图片处理软件 GIMP: 画好参考线后, 点击 滤镜->WEB ->切片 2 python + PIL (
随机推荐
- asp.net 文件上传实例汇总
- jQuery 获取、设置HTML或TEXT内容的两种方法
- 更优雅的事件触发兼容
- VBS教程:函数-Array 函数
- 有星外虚拟主机管理系统下MSSQL2005服务器因重装改名后出错的解决办法
- docker中mysql初始化及启动失败问题解决方案
- JVM中堆内存和栈内存的区别
- ORACLE错误一览表 方便查询
- 在Django中进行用户注册和邮箱验证的方法
- Objective-C中的重载和重写详解
- jQuery实现单行文字间歇向上滚动源代码
- 利用ASP.NET MVC和Bootstrap快速搭建个人博客之文章打赏功能(六)
- PHP实现下载功能的代码
- php读取二进制流(C语言结构体struct数据文件)的深入解析
- C++ 实现静态链表的简单实例
- MVC4制作网站教程第二章 用户登陆2.2
- Python中利用sorted()函数排序的简单教程
- 解决微信返回上一页,页面中的AJAX的请求,对Get请求无效的问题
- jquery uploadify如何取消已上传成功文件
- C++中的局部变量、全局变量、局部静态变量、全局静态变量的区别