Python实现删除重复文件的示例代码

此程序主要是针对某个目录下的全部文件进行筛选,会删除重复的文件。

原理很简单,会计算每个文件的哈希,将哈希存入一个字典,文件名对应哈希。

import os
import hashlib

def hash_file(filename):
    """Return the SHA-1 hash
    of the file content."""
    h = hashlib.sha1()
    with open(filename, 'rb') as f:
        while True:
            chunk = f.read(4096)
            if not chunk:
                break
            h.update(chunk)
    return h.hexdigest()

def remove_duplicate_files(path):
    """Remove duplicates files in the directory."""
    files_hash = {}
    i=0
    j=0
    sum=len(os.listdir(path))
    for dirpath, dirnames, filenames in os.walk(path):
        for filename in filenames:
            j=j+1
            print("执行进度为:",100*j/sum,"%")
            file_path = os.path.join(dirpath, filename)
            file_hash = hash_file(file_path)
            if file_hash in files_hash:
                os.remove(file_path)
                i=i+1
                # print(i)
            else:
                files_hash[file_hash] = file_path
    print("文件总数为:",sum)
    print("此处处理的重复文件数目为:",i)

在使用的时候直接调用下面那个函数即可,传入参数为目录路径。

例如下面这样:

remove_duplicate_files("Y:\图片合集")

当然,你也可以将程序打包为一个exe文件,甚至为它添加简单的页面,让非计算机专业的人也能轻易使用。

补充

当然除了上文的方法,还有很多方法可以实现,下面是小编为大家整理的内容,希望对大家有所帮助

Python删除文件夹内指定的重复文件

import os
import re

class file_clean:
    def __init__(self, folder, filerege):
        self.folder = folder
        self.filerege = filerege
        self.folder_generator = os.walk(self.folder)

    # 删除所有文件夹及子文件夹下指定文件
    def del_all_file(self):
        for folder, subfolder, file_list in self.folder_generator:
            for file in file_list:
                if self.filerege == '*':
                    del_all_file = os.path.join(folder, file)
                    os.remove(del_all_file)
                elif re.findall(self.filerege, file):
                    del_all_file = os.path.join(folder, file)
                    print(del_all_file)
                    os.remove(del_all_file)

    # 只删除所有文件夹下的指定文件
    def del_file(self):
        for folder, subfolder, file_list in self.folder_generator:
            if os.path.dirname(folder) == os.path.dirname(self.folder):
                for file in file_list:
                    if self.filerege == '*':
                        del_file = os.path.join(folder, file)
                        os.remove(del_file)
                    elif re.findall(self.filerege, file):
                        del_file = os.path.join(folder, file)
                        print(del_file)
                        os.remove(del_file)

if __name__ == '__main__':
    # 选择文件夹路径 D盘C盘目录需要使用双斜杠r'D:\\', '\.wedrive'
    go = file_clean(r'D:\eong', '\.WeDrive')
    # 选择要执行的函数类型del_all_file删除件夹及子文件夹下指定文件,del_file只删除当前选择文件夹的指定文件
    go.del_file()

python删除本地夹里重复文件的方法

import os
import hashlib
import logging
import sys 

def logger():
 """ 获取logger"""
 logger = logging.getLogger()
 if not logger.handlers:
 # 指定logger输出格式
 formatter = logging.Formatter('%(asctime)s %(levelname)-8s: %(message)s')
 # 文件日志
 file_handler = logging.FileHandler("test.log")
 file_handler.setFormatter(formatter) # 可以通过setFormatter指定输出格式
 # 控制台日志
 console_handler = logging.StreamHandler(sys.stdout)
 console_handler.formatter = formatter # 也可以直接给formatter赋值
 # 为logger添加的日志处理器
 logger.addHandler(file_handler)
 logger.addHandler(console_handler)
 # 指定日志的最低输出级别,默认为WARN级别
 logger.setLevel(logging.INFO)
 return logger 

def get_md5(filename):
 m = hashlib.md5()
 mfile = open(filename, "rb")
 m.update(mfile.read())
 mfile.close()
 md5_value = m.hexdigest()
 return md5_value 

def get_urllist():
 #替换指定的文件夹路径即可
 base = ("F:\\pythonFile\\煎蛋网\\无聊图\\jpg\\")
 list = os.listdir(base)
 urlList=[]
 for i in list:
 url = base + i
 urlList.append(url)
 return urlList 

if __name__ == '__main__':
 log = logger()
 md5List =[]
 urlList =get_urllist()
 for a in urlList:
 md5 =get_md5(a)
 if (md5 in md5List):
  os.remove(a)
  print("重复:%s"%a)
  log.info("重复:%s"%a)
 else:
  md5List.append(md5)
  # print(md5List)
  print("一共%s张照片"%len(md5List)) 

到此这篇关于Python实现删除重复文件的示例代码的文章就介绍到这了,更多相关Python删除重复文件内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python删除本地夹里重复文件的方法

    上次的博文主要说了从网上下载图片,于是我把整个笑话网站的图片都拔下来了,但是在拔取的图片中有很多重复的,比如说页面的其他图片.重复发布的图片等等.所以我又找了python的一些方法,写了一个脚本可以删除指定文件夹里重复的图片. 一.方法和思路 1.比对文件是否相同的方法:hashlib库里提供了获取文件md5值的方法,所以我们可以通过md5值来判定是否图片相同 2.对文件的操作:os库里有对文件的操作方法,比如:os.remove()可以删除指定的文件, os.listdir()可以通过指定文件

  • 详解如何使用Python实现删除重复文件

    目录 Python自动化办公之删除重复文件 思路介绍 源码解说 知识拓展 Python自动化办公之删除重复文件 思路介绍 两层判断: 1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留: 2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除. 源码解说 from pathlib import Path import hashlib def getmd5(filename): # 接收文件路径,返回文件md5值 with open(filename, 'rb') as

  • Python实现的删除重复文件或图片功能示例【去重】

    本文实例讲述了Python实现的删除重复文件或图片功能.分享给大家供大家参考,具体如下: 通过python爬虫或其他方式保存的图片文件通常包含一些重复的图片或文件, 通过下面的python代码可以将重复的文件删除以达到去重的目的.其中,文件目录结构如下图: # /usr/bin/env python # -*- coding:utf-8 -*- # 运行的代码文件要放到删除重复的文件或图片所包含的目录中 import os import hashlib def filecount(): file

  • 利用Python删除电脑中重复文件的方法

    目录 前言 练习 代码演示 总结 前言 在生活中,我们经常会遇到电脑中文件重复的情况.在文件较少的情况下,这类情况还比较容易处理,最不济就是一个个手动对比删除:而在重复文件很多的时候,我们很难保证把重复文件全部删完.下面文章就来简单介绍便捷一个小方法,用Python来删除重复文件 练习 Python提供一个内置电脑文件管理库os模块,我们可以利用它来删除多余文件. 当一个文档里存在重复文件名,我们的系统会自动给我们重复的文件名更名, 比如下图的文件“1”重复了3次:  那我们该怎么删除文件“1”

  • 教你用Python寻找重复文件并删除的脚本写法

    在实际生活中,经常会有文件重复的困扰,即同一个文件可能既在A目录中,又在B目录中,更可恶的是,即便是同一个文件,文件名可能还不一样.在文件较少的情况下,该类情况还比较容易处理,最不济就是one by one的人工比较——即便如此,也很难保证你的眼神足够犀利.倘若文件很多,这岂不是个impossible mission?最近在看<Python UNIX和Linux系统管理指南>,里面就有有关“数据比较”的内容,在其基础上,结合实际整理如下. 该脚本主要包括以下模块:diskwalk,chechs

  • Python实现删除重复文件的示例代码

    此程序主要是针对某个目录下的全部文件进行筛选,会删除重复的文件. 原理很简单,会计算每个文件的哈希,将哈希存入一个字典,文件名对应哈希. import os import hashlib def hash_file(filename): """Return the SHA-1 hash of the file content.""" h = hashlib.sha1() with open(filename, 'rb') as f: while

  • Python实现自动化整理文件的示例代码

    目录 自动化整理计算机文件 1. 文件的自动分类 2. 文件和文件夹的快速查找 3. 自动清理重复文件 4. 批量转换图片格式 5. 按拍摄日期自动分类图片 自动化整理计算机文件 通过Python编程完成文件的自动分类.文件和文件夹的快速查找.重复文件的清理.图片格式的转换等常见工作. 1. 文件的自动分类 根据文件的扩展名将文件分类整理到不同文件夹中. 使用os和shutil模块 os模块提供了许多操作文件和文件夹的函数,可对文件或文件夹进行新建.删除.查看属性以及查找路径等操作. shuti

  • Python实现自动整理文件的示例代码

    目录 一.前言 二.遍历文件 三.移动文件 四.自动整理文件 1.将图片集中存放 2.同步整理文件 3.获取文件属性 一.前言 今天我们就带大家来实现一下文件自动整理的操作.在我们日常生活中,文件总是杂乱无章的,这个时候就需要我们整理一下.但是文件太多的话整理起来是非常麻烦的,因此我们今天就来用Python实现文件的自动整理. 二.遍历文件 要整理文件,我们首先需要遍历文件.这里用两种方法,一种是直接获取指定目录下的所有文件和文件夹.另外一种就是获取指定目录下的文件.文件夹和子文件.文件夹...

  • Python实现清理重复文件功能的示例代码

    目录 前置 查找.删除重复文件 GUI制作 GUI界面设计 逻辑设计 效果展示 在电脑上或多或少的存在一些重复文件,体积小的倒没什么,如果体积大的就很占内存了,而如果自己一个一个查看文件是否重复,然后再删除,还是很要命的. 为此,我用python制作了一个删除重复文件的小工具,核心代码很简单,就十行代码,不管什么类型的文件都可以一键删除! 前置 PySimpleGUI库用来创建可视化界面,os操作文件,只需要这两个库: import os import PySimpleGUI as sg os为

  • python 高效去重复 支持GB级别大文件的示例代码

    如下所示: #coding=utf-8 import sys, re, os def getDictList(dict): regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+''' with open(dict) as f: data = f.read() return re.findall(regx, data) def rmdp(dictList): return list(set(dictL

  • Python列表删除重复元素与图像相似度判断及删除实例代码

    发现问题 项目需要,需要删除文件夹中的冗余图片.涉及图像文件名的操作,图像文件名存储在list中 python list删除元素有remove()和pop(),remove()对元素进行操作,pop()对索引进行操作,并会返回pop掉的值.一个只会从列表移除一个数 一.如果已经有了一个列表l,令h=l,对l操作时同时会影响h,貌似原因是内存共享的,正确的方法是h=l.copy() 二.测试时,发现一个问题,如下面代码和结果: item=2时,并没有把2全部删掉,后面重复的3也没有删去. **查阅

  • Python 保存加载mat格式文件的示例代码

    mat为matlab常用存储数据的文件格式,python的scipy.io模块中包含保存和加载mat格式文件的API,使用极其简单,不再赘述:另附简易示例如下: # -*- coding: utf-8 -*- import numpy as np import scipy.io as scio # data data = np.array([1,2,3]) data2 = np.array([4,5,6]) # save mat (data format: dict) scio.savemat(

  • java压缩文件与删除文件的示例代码

    压缩文件 :toZip(String srcDir, OutputStream out,boolean KeepDirStructure) 删除文件:deleteFolder(File folder) /** * 压缩成ZIP 方法1 * * @param srcDir * 压缩文件夹路径 * @param out * 压缩文件输出流 * @param KeepDirStructure * 是否保留原来的目录结构,true:保留目录结构; * false:所有文件跑到压缩包根目录下(注意:不保留

随机推荐