python标准库压缩包模块zipfile和tarfile详解(常用标准库)

目录
  • 常用的标准库
    • zip格式
      • ZipFile参数说明
      • 操作含义
      • 压缩方法
      • 常用方法
    • tar包 和 gz、bz2、xz格式
    • 删除压缩包中的文件

常用的标准库

在我们常用的系统windowsLinux系统中有很多支持的压缩包格式,包括但不限于以下种类:rarziptar,以下的标准库的作用就是用于压缩解压缩其中一些格式的压缩包。

zip格式

import zipfile

zipfile模块操作压缩包使用ZipFile类进行操作,使用方法和open的使用方法很相似,也是使用rwxa四种操作模式。基本步骤也是大致分为三步:打开文件、操作文件、关闭文件。可以使用with语法进行上下文自动操作。

注意一:zipfile也是rwxa四种模式,表示也会有文件操作中光标指针的概念。

注意二:在Python中,几乎所有涉及到文件相关的操作都是打开、操作、关闭三个步骤。

ZipFile参数说明

语法:ZipFile(file, mode='r', compression=ZIP_STORED, allowZip64=True)

参数 含义
file 文件路径
mode 操作含义,与文件操作中相同,默认为r。
compression 压缩方法,默认为ZIP_STORED。
allowZip64 操作的压缩包文件大小大于2G时应该True, 默认为True,不用管它。

操作含义

模式 含义
w 创建一个新的压缩包文件。
r 读取已有的压缩包文件。
a 向已有的压缩包文件中压缩文件。

压缩方法

在上面的compression参数中可以看到,默认的压缩方法为ZIP_STORED。其实在zipfile模块中定义了一些压缩方法常量,其中最常用的为以下两种:

ZIP_STORED = 0  # 打包归档(不压缩)
ZIP_DEFLATED = 8  # 压缩文件(压缩)

注意,压缩方法指的是将文件写入压缩包中采用的方法,所以,如果是解压缩文件,就没必要指定这个压缩方法了。

常用方法

write -- 指定文件写入压缩包(压缩文件)

语法:write(filename, arcname=None)

语法:write(压缩文件路径,写入压缩包后的路径和名字(默认原名))

写入文件如果是文件夹,那么不会将文件夹中的内容一同写入。

close -- 关闭对象(保存文件)

这是我要压缩的文件夹。

使用ZIP_STORED压缩。

import zipfile

# 文件路径
zip_file_path = r'D:\test.zip'  # 压缩包路径
file_path = r'D:\10-中日欧美信息解析'  # 被压缩文件

# 默认使用ZIP_STORED
zf = zipfile.ZipFile(zip_file_path, 'w')

# 写入文件(文件夹的话,不会将文件夹中的文件一同写入)
zf.write(file_path)

# 关闭文件
zf.close()

可以看到,如果文件夹直接压缩的话,不会将其中的文件一同压缩。

让文件夹中的所有文件迭代写入压缩包中。

import os
import zipfile
def writeZip(zf, file, arc_path=None):
    """迭代压缩文件夹"""
    # 设置压缩路径
    if arc_path is None:
        arc_path = rf'\{os.path.basename(file)}'
    # 先压缩本文件
    zf.write(file, arc_path)
    # 如果是文件夹
    if os.path.isdir(file):

        # 获取它所有的子文件
        inner_files = os.listdir(file)

        # 将所有的子文件压缩
        for inner_file in inner_files:
            inner_file = f'{file}{os.sep}{inner_file}'
            arc = fr'{arc_path}\{os.path.basename(inner_file)}'
            writeZip(zf, inner_file, arc)
# 文件路径
zip_file_path = r'D:\test.zip'  # 压缩包路径
file_path = r'D:\10-中日欧美信息解析'  # 被压缩文件
# 默认使用ZIP_STORED
zf = zipfile.ZipFile(zip_file_path, 'w')
# 写入文件(自定义一个函数,迭代压缩文件夹)
writeZip(zf, file_path)
# 关闭文件
zf.close()

现在就可以看到,虽然所有的文件已经全部写入压缩包中,但是ZIP_STORED方法并没有压缩文件。

改用ZIP_DEFLATED方法压缩文件。

import os
import zipfile
def writeZip(zf, file, arc_path=None):
    """迭代压缩文件夹"""
    # 设置压缩路径
    if arc_path is None:
        arc_path = rf'\{os.path.basename(file)}'
    # 先压缩本文件
    zf.write(file, arc_path)
    # 如果是文件夹
    if os.path.isdir(file):
        # 获取它所有的子文件
        inner_files = os.listdir(file)
        # 将所有的子文件压缩
        for inner_file in inner_files:
            inner_file = f'{file}{os.sep}{inner_file}'
            arc = fr'{arc_path}\{os.path.basename(inner_file)}'
            writeZip(zf, inner_file, arc)
# 文件路径
zip_file_path = r'D:\test.zip'  # 压缩包路径
file_path = r'D:\10-中日欧美信息解析'  # 被压缩文件
# 使用ZIP_DEFLATED压缩
zf = zipfile.ZipFile(zip_file_path, 'w', zipfile.ZIP_DEFLATED)
# 写入文件(自定义一个函数,迭代压缩文件夹)
writeZip(zf, file_path)
# 关闭文件
zf.close()

可以看到,文件是压缩写入内部的。

解压缩

解压缩有如下两种方法,注意,解压缩就是在读文件,要将操作模式变更为r

方法 说明
extract 解压缩单个指定的文件。
extractall 解压缩所有的文件。

语法:extract(member,path=None, pwd=None)

语法:extract(指定文件(压缩包中的路径),解压到的位置(默认为当前工作目录),指定的密码(有些压缩包有密码,格式为字节流))

语法:extractall(path=None, pwd=None)

语法:extractall(解压到的位置, 密码)

注意:解压文件和路径中的文件夹同名会报错,因为文件无法重置文件夹。

namelist -- 迭代返回压缩包中的文件
import zipfile
with zipfile.ZipFile(r'D:\test.zip') as zf:
    res = zf.namelist()
    print(res)
    # ['10-中日欧美信息解析/', '10-中日欧美信息解析/1-代码/', ...]
infolist -- 迭代返回压缩包中的文件信息

比如文件的权限等。

printdir -- 查看压缩包中的文件的信息

查看压缩包中的文件信息,比如文件的大小、创建日期等。默认查看所有的文件。

语法:printdir(file=None)

tar包 和 gz、bz2、xz格式

import tarfile

tarfile的使用和文件操作更加的相似,只是在压缩模式上略有不同。

使用linux系统的朋友都知道,tar是Linux的一种打包方式,打包成为tar包之后,才可以使用其它的压缩程序去压缩。最常用的压缩方式是gzip,压缩率最高的方式bzip2,此外还支持另一种比较小众的xzip格式。

主要操作方法为tarfile.TarFile.open(),可以直接tarfile.open()

语法:open(name, mode='r')

当初在学习的时候,老师还教有encoding='UTF-8'参数,但是文件操作要什么编码格式?感觉他是为了方便直接从文件操作的代码上直接复制过来的,然后没有删掉。

操作tar包

模式为rwax四种为主,外加使用add方法写入文件,退出依然使用close方法。

add(name, arcname)

add(压缩文件,压缩别名)

注意,压缩别名一定不要以路径分隔符为结尾,否则只会创建一个文件夹。

import tarfile
with tarfile.open('test.tar', 'w') as tf:
    tf.add('test.txt')
压缩

压缩的方式主要是将模式改变,在rwx的基础上加上各个压缩的方式,变成:r:gzw:bz2x:xz等样式,然后在将刚才创建的tar包压缩,当然也可以直接将文件压缩成为压缩包。

注意,a模式不能配备任何压缩模式,因为gzip、bzip2、xzip不能直接往里面追加文件,所以如果要追加文件,将tar包解压缩出来,然后追加再压缩。

import tarfile
# tar包以gzip格式压缩
with tarfile.open('test.tar.gz', 'w:gz') as tf:
    tf.add('test.tar')
解压缩

tarfile的解压缩方法和zipfile的一模一样。

方法 含义
extract 解压缩指定文件
extractall 解压缩所有文件
getnames -- 返回压缩包中的文件(list)

删除压缩包中的文件

zipfile和tarfile不支持删除压缩包中的文件,所以如果有需要删除压缩包中的文件,可以将压缩包解压出来,然后删除其中的文件,再压缩。

到此这篇关于python标准库压缩包模块zipfile和tarfile详解(常用标准库)的文章就介绍到这了,更多相关python压缩包模块zipfile和tarfile内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python中zipfile压缩包模块的使用

    简介 ZIP 文件格式是一个常用的归档与压缩标准,zipfile 模块提供了创建.读取.写入.添加及列出 ZIP 文件的工具 此模块目前不能处理分卷 ZIP 文件,支持解密 ZIP 归档中的加密文件,但是目前不能创建一个加密的文件.解密非常慢,因为它是使用原生 Python 而不是 C 实现的 压缩文件 class zipfile.ZipFile(file, mode='r', compression=ZIP_STORED, allowZip64=True, compresslevel=None

  • 详解python解压压缩包的五种方法

    这里讨论使用Python解压例如以下五种压缩文件: .gz .tar  .tgz .zip .rar 简单介绍 gz: 即gzip.通常仅仅能压缩一个文件.与tar结合起来就能够实现先打包,再压缩. tar: linux系统下的打包工具.仅仅打包.不压缩 tgz:即tar.gz.先用tar打包,然后再用gz压缩得到的文件 zip: 不同于gzip.尽管使用相似的算法,能够打包压缩多个文件.只是分别压缩文件.压缩率低于tar. rar:打包压缩文件.最初用于DOS,基于window操作系统. 压缩

  • python破解同事的压缩包密码

    又是一杯奶茶~ 事情的经过是这样的: 又是奶茶,行吧行吧. 快点开工,争取李大伟回来之前搞定. 李大伟说是6位数字密码 那么我们可以利用python生成全部的六位数字密码 #生成从000000到99999的密码表 f = open('passdict.txt','w') for id in range(1000000): password = str(id).zfill(6)+'\n' f.write(password) f.close() 这样,我们就生成了一个从000000到99999的密码

  • Python轻松破解加密压缩包教程详解

    目录 一.准备工作 二.开始操作 相信大家都遇到过这种情况,下载文件的时候遇到压缩包又没有密码,或者说自己设置的加密密码,但是忘记了,就很难受~ 但是~ 在Python程序员面前,这都是小问题! 话不多说,我们直接开始操作.. 一.准备工作 我们先打开一个加密的压缩包尝试原始方法解压一下 然后弹出来让我输密码 正常打不开,如果你点击跳过所有加密,它也不会打开,直接就关闭当前你窗口了. 那正常情况下,我们能怎么办,什么也办不了,下一个会更乖. 我们打开pycharm,新建一个py文件,暂且我把它命

  • 200个Python 标准库总结

    目录 1.文本 2.数学 3.函数式编程 4.文件与目录 5.持久化 6.压缩 7.加密 8.操作系统工具 9.并发 10.进程间通信 11.互联网 12.互联网协议与支持 13.多媒体 14.国际化 15.编程框架 16.Tk图形用户接口 17.开发工具 18.调试 19.运行时 20.解释器 21.导入模块 22.Python语言 23.其他 24.Windows相关 25.Unix相关 1.文本 string:通用字符串操作 re:正则表达式操作 difflib:差异计算工具 textwr

  • python标准库压缩包模块zipfile和tarfile详解(常用标准库)

    目录 常用的标准库 zip格式 ZipFile参数说明 操作含义 压缩方法 常用方法 tar包 和 gz.bz2.xz格式 删除压缩包中的文件 常用的标准库 在我们常用的系统windows和Linux系统中有很多支持的压缩包格式,包括但不限于以下种类:rar.zip.tar,以下的标准库的作用就是用于压缩解压缩其中一些格式的压缩包. zip格式 import zipfile zipfile模块操作压缩包使用ZipFile类进行操作,使用方法和open的使用方法很相似,也是使用r.w.x.a四种操

  • Python正则表达re模块之findall()函数详解

    一.re.findall函数介绍 它在re.py中有定义: def findall(pattern, string, flags=0): """Return a list of all non-overlapping matches in the string. If one or more capturing groups are present in the pattern, return a list of groups; this will be a list of

  • Python标准库uuid模块(生成唯一标识)详解

    目录 UUID格式组成 Python 中的uuid 模块 uuid1() 中的getnode() UUID实际应用 UUID 的劣势 参考资料: 总结 UUID (Universally Unique Identifier,通用唯一标识)是一个128位的用于计算机系统中以识别信息的数目,虽然生成UUID的概率不为零,但是无限接近零,因此可以忽略不记,如此一来,每个人都可以建立不与其他人冲突的UUID. UUID格式组成 规范的文本中,UUID的十六个八位字节标识位32个十六进制(基数16)数字,

  • C语言使用openSSL库AES模块实现加密功能详解

    本文实例讲述了C语言使用openSSL库AES模块实现加密功能.分享给大家供大家参考,具体如下: 概述 在密码学里面一共有3中分类: 1.对称加密/解密 对称加密比较常见的有DES/AES.加密方和解密方都持有相同的密钥.对称的意思就是加密和解密都是用相同的密钥. 2.非对称加密/解密 常见的加密算法DSA/RSA.如果做过Google Pay的话,应该不会陌生.非对称意味着加密和解密使用的密钥不是相同的.这种应用的场合是需要保持发起方的权威性,比如Google中一次支付行为,只能Google通

  • C语言使用openSSL库DES模块实现加密功能详解

    本文实例讲述了C语言使用openSSL库DES模块实现加密功能.分享给大家供大家参考,具体如下: 在通讯过程中为了防止普通的玩家截取协议修改内容并且发送,我们是有必要对协议进行加密的.当前这样的加密手段都已经是变成世界里面的基础设施了.我们只需要将其引入到工程中就好.本文将会基于OpenSSL来编写一个加密.解密的实例.时下流行的加密解密方式有DES/AES.先我们来聊聊历史吧. 历史介绍 DES(Data Encryption Standard) DES一度是电子数据对称加密的主导者.他影响了

  • Python中使用logging模块打印log日志详解

    学一门新技术或者新语言,我们都要首先学会如何去适应这们新技术,其中在适应过程中,我们必须得学习如何调试程序并打出相应的log信息来,正所谓"只要log打的好,没有bug解不了",在我们熟知的一些信息技术中,log4xxx系列以及开发Android app时的android.util.Log包等等都是为了开发者更好的得到log信息服务的.在Python这门语言中,我们同样可以根据自己的程序需要打出log. log信息不同于使用打桩法打印一定的标记信息,log可以根据程序需要而分出不同的l

  • Python用sndhdr模块识别音频格式详解

    本文主要介绍了Python编程中,用sndhdr模块识别音频格式的相关内容,具体如下. sndhdr模块 功能描述:sndhdr模块提供检测音频类型的接口. 唯一一个API sndhdr模块提供了sndhdr.what(filename)和sndhdr.whathdr(filename)两个函数.但实际上它们的功能是一样的.(不知道多写一个的意义何在,what函数在内部调用了whathdr函数并把数据完完整整地返回) 在之前的版本,whathdr函数返回元组类型的数据,在Python3.5版本之

  • Python模块glob函数示例详解教程

    目录 本文大纲 支持4个常用的通配符 1)glob()函数 2)iglob()函数 3)escape()函数 总结 本文大纲 glob模块也是Python标准库中一个重要的模块,主要用来查找符合特定规则的目录和文件,并将搜索的到的结果返回到一个列表中.使用这个模块最主要的原因就是,该模块支持几个特殊的正则通配符,用起来贼方便,这个将会在下方为大家进行详细讲解. 支持4个常用的通配符 使用glob模块能够快速查找我们想要的目录和文件,就是由于它支持*.**.? .[ ]这三个通配符,那么它们到底是

  • python库JsonSchema验证JSON数据结构使用详解

    目录 简单实例 type关键字 object关键字 属性 properties 必需属性 大小 数组属性 items List validation Tuple validation 长度 唯一性 通用关键字 元数据 枚举值 组合模式 anyOf oneOf allOf $schema关键字 正则表达式 构建复杂的模式 重用 JSON Schema是一个用于验证JSON数据结构的强大工具, 我查看并学习了JSON Schema的官方文档, 做了详细的记录, 分享一下. 我们可以使用JSON Sc

  • Python使用base64模块进行二进制数据编码详解

    前言 昨天团队的学妹来问关于POP3协议的问题,所以今天稍稍研究了下POP3协议的格式和Python里面的poplib.而POP服务器往回传的数据里有一部分需要用到Base64进行解码,所以就顺便看了下Python里面的base64模块. 本篇先讲一下base64模块,该模块提供了关于Base16,Base32,Base64,Base85和Ascii85的编码和解码相关的函数.有关poplib模块的内容,会在后面发上来.嗯,又挖了一个坑,这辈子挖的坑填不完了... 以下内容摘自http://bb

随机推荐