利用 Python 中的内置open函数读取二进制文件

在python中读取一个文本文件相信大家都比较熟悉了,但如果我们遇到一个二进制文件要读取怎么办呢?我们尝试使用 Python 中的内置 open 函数使用默认读取模式读取 zip 文件,抱歉,我们将收到错误消息:

>>> with open("exercises.zip") as zip_file:
...     contents = zip_file.read()
...
Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
  File "/usr/lib/python3.10/codecs.py", line 322, in de
code
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 11: invalid sta
rt byte

我们收到一个错误,是因为 zip 文件不是文本文件,它们是二进制文件。

要从二进制文件中读取,我们需要使用模式 rb 而不是默认模式 rt 打开它:

>>> with open("exercises.zip", mode="rb") as zip_file:
...     contents = zip_file.read()

当从二进制文件中读取时,我们不会得到字符串。将返回一个字节对象,也称为字节字符串:

>>> with open("exercises.zip", mode="rb") as zip_file:
...     contents = zip_file.read()
...
>>> type(contents)
<class 'bytes'>
>>> contents[:20]
b'PK\x03\x04\n\x00\x00\x00\x00\x00Y\x8e\x84T\x00\x00\x00\x00\x00\x00'

字节字符串中没有字符:它们中有字节。

除非我们理解它们的含义,否则文件中的字节对我们没有多大帮助。

使用库来读取二进制文件

处理二进制文件时,你通常会使用和知道如何处理正在使用的特定类型文件的库(内置 Python 库或第三方库)。该库将完成将文件中的字节解码为更易于使用的工作。

例如,Python 的 ZipFile 模块可以帮助我们读取 zip 文件中的数据:

>>> from zipfile import ZipFile
>>>
>>> with ZipFile("exercises.zip") as zip_file:
...     test_file = zip_file.read("exercises/test.py").decode("utf-8")
...
>>> test_file[:30]
'#!/usr/bin/env python3\nfrom __'

如果有人已经完成了这项工作,最好避免实现自己的字节检查或字节操作逻辑。

在 Python 中以字节级别工作

有时你会使用或被要求直接在字节级别工作的库或 API。在这种情况下,你需要至少需要对二进制文件和字节字符串有一点了解。

例如,假设我们要计算给定文件的 sha256 校验和。

在这里,我们有一个名为 get_sha256_hash 的函数来执行此操作:

import hashlib
def get_sha256_hash(filename):
    with open(filename, mode="rb") as f:
        return hashlib.sha256(f.read()).hexdigest()

此函数读取此文件中的所有二进制数据。我们正在读取字节,因为 Python 的 hashlib 模块要求我们使用字节。hashlib 模块在底层工作:它使用字节而不是字符串。

因此,我们传入文件中的所有字节以获取哈希对象,然后对该哈希对象调用 hexdigest 方法以获取表示该文件的 SHA-256 校验和的十六进制字符串:

>>> get_sha256_hash("exercises.zip")
'9e98242a21760945ec815668fc79d8621fa15dd23659ea29be2c5949153fe96d'

此功能运行良好,但使用此功能读取非常大的文件可能会出现问题。

分块读取二进制文件

我们的 get_sha256_hash 函数一次将整个文件读入内存。一个非常大的文件可能会占用大量内存。

对于文本文件,解决此问题的常用方法是逐行读取文件。但是二进制文件不一定有行!但是,我们可以尝试逐块读取。

首先,我们将从文件中读取一个 8 KB 的块:

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        chunk = f.read(buffer_size)

我们首先创建一个新的哈希对象,然后读取一个 8 KB 的块(通过将字节数传递给我们的文件对象的 read 方法)。

现在我们需要文件的其余部分。所以我们将循环:

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        chunk = f.read(buffer_size)
        while chunk:
            file_hash.update(chunk)
            chunk = f.read(buffer_size)
    return file_hash.hexdigest()

我们重复读取一个块,更新我们的哈希对象,然后读取另一个块。

只要我们不在文件的末尾,我们就会在读取时返回一个真实的块。

但是当我们在文件的最后读取时,我们会得到一个空字节字符串。空字节字符串(如空字符串)是错误的,因此在文件末尾我们将跳出循环。然后我们将像以前一样返回十六进制摘要。

   

>>> get_sha256_hash("exercises.zip")
'9e98242a21760945ec815668fc79d8621fa15dd23659ea29be2c5949153fe96d'

但是,我们现在不是将整个文件读入内存,而是逐块读取文件。

使用赋值表达式

在逐块读取文件时,通常会看到使用的赋值表达式(通过 Python 的海象运算符):

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        while chunk := f.read(buffer_size):
            file_hash.update(chunk)
    return file_hash.hexdigest()

在 while 循环中重复读取数据是赋值表达式的一个很好的用例。它可能看起来有点奇怪,但它确实为我们节省了几行代码。

注意:海象运算符是在 Python 3.8 中添加的。

最后总结下,当你在 Python 中读取二进制文件时,你会得到字节,当你读取一个大型二进制文件时,你需要逐块读取它,当然如果可以最好避免自己读取二进制文件,有第三方库可以使用第三方库来处理。

(0)

相关推荐

  • 使用Python读取二进制文件的实例讲解

    目标:目标文件为一个float32型存储的二进制文件,按列优先方式存储.本文使用Python读取该二进制文件并使用matplotlib.pyplot相关工具画出图像 工具:Python3, matplotlib,os,struct,numpy 1. 读取二进制文件 首先使用open函数打开文件,打开模式选择二进制读取"rb". f = open(filename, "rb") 第二步,需要打开按照行列读取文件,由于是纯二进制文件,内部不含邮任何的数据结构信息,因此我

  • Python读取二进制文件代码方法解析

    问题 有二进制文件中保存了 20 亿个 2 Bytes 的数,需将其读出,每 20000 个数作图,拟合后输出结果. 解决 # -*- coding: utf-8 -*- """ @author: kurrrr """ import struct def main(): data_file = open('run0035.bin', 'rb') data_temp = data_file.read(2) data_short, = struct.

  • 利用 Python 中的内置open函数读取二进制文件

    在python中读取一个文本文件相信大家都比较熟悉了,但如果我们遇到一个二进制文件要读取怎么办呢?我们尝试使用 Python 中的内置 open 函数使用默认读取模式读取 zip 文件,抱歉,我们将收到错误消息: >>> with open("exercises.zip") as zip_file: ... contents = zip_file.read() ... Traceback (most recent call last): File "<

  • python中__call__内置函数用法实例

    本文实例讲述了python中__call__内置函数的用法.分享给大家供大家参考.具体分析如下: 对象通过提供__call__(slef, [,*args [,**kwargs]])方法可以模拟函数的行为,如果一个对象x提供了该方法,就可以像函数一样使用它,也就是说x(arg1, arg2...) 等同于调用x.__call__(self, arg1, arg2).模拟函数的对象可以用于创建仿函数(functor) 或代理(proxy) class DistanceForm(object): d

  • python中的内置函数max()和min()及mas()函数的高级用法

    max(iterable, *[, key, default]) max(arg1, arg2, *args[, key]) 函数功能为取传入的多个参数中的最大值,或者传入的可迭代对象元素中的最大值.默认数值型参数,取值大者:字符型参数,取字母表排序靠后者.还可以传入命名参数key,其为一个函数,用来指定取最大值的方法.default命名参数用来指定最大值不存在时返回的默认值. eg a.传入的多个参数的最大值 print(max(1,2,3,4)) 输出 b.1 传入可迭代对象时,取其元素最大

  • python中str内置函数用法总结

    大家在使用python的过程中,应该在敲代码的时候经常遇到str内置函数,为了防止大家搞混,本文整理归纳了str内置函数.1字符串查找类:find.index:2.字符串判断类:islower.isalpha:3.内容判断类:tartswith.endswith:4.操作类函数:format.strip.join. 1.字符串查找类:find.index find和index均是查找字符串中是否包含一个子串: 二者的区别是index找不到字符串会报错,而find会返回-1: rfind.lfin

  • Python中class内置方法__init__与__new__作用与区别解析

    目录 背景 __init__方法作用 __new__方法作用 __init__ && __new__联系 使用__new__的场景 定义.继承immutable class 使用metaclass 参考文献 背景 最近尝试了解Django中ORM实现的原理,发现其用到了metaclass(元类)这一技术,进一步又涉及到Python class中有两个特殊内置方法__init__与__new__,决定先尝试探究一番两者的具体作用与区别.PS: 本文中涉及的类均为Python3中默认的新式类,

  • Python中的内置函数isdigit()

    目录 Python内置函数isdigit()使用 示例一:判断单个字符是否为数字 示例二:判断字符串中是否仅含有数字 Python字符串内置函数 Python内置函数isdigit()使用 今天简单介绍一下Python中的isdigit()函数的用法: 判断单个字符是否为数字 判断字符串中是否仅含有数字 示例一:判断单个字符是否为数字 char1 = '1' print(char1.isdigit()) char2 = 'a' print(char2.isdigit()) ""&quo

  • 深入理解Python中的内置常量

    前言 大家都知道Python内置的常量不多,只有6个,分别是True.False.None.NotImplemented.Ellipsis.__debug__.下面就来看看详细的介绍: 一. True 1. True是bool类型用来表示真值的常量. >>> True True >>> type(True) <class 'bool'> 2. 对常量True进行任何赋值操作都会抛出语法错误. >>> True = 1 SyntaxError

  • python中的内置函数getattr()介绍及示例

    在python的官方文档中:getattr()的解释如下: getattr(object, name[, default]) Return the value of the named attribute of object. name must be a string. If the string is the name of one of the object's attributes, the result is the value of that attribute. For examp

  • python中字符串内置函数的用法总结

    capitalize() 首字母大写 a='someword' b=a.capitalize() print(b) ->Someword casefold()&lower() 所有字母变小写,casefold可将未知字符便小写 a='someWORD' b=a.casefold() print(b) c=a.lower() print(c) ->someword ->someword center(width,fillchar=None) 设置宽度,并将内容居中,空白未知填充,一

  • python 函数中的内置函数及用法详解

    今天来介绍一下Python解释器包含的一系列的内置函数,下面表格按字母顺序列出了内置函数: 下面就一一介绍一下内置函数的用法: 1.abs() 返回一个数值的绝对值,可以是整数或浮点数等. print(abs(-18)) print(abs(0.15)) result: 18 0.15 2.all(iterable) 如果iterable的所有元素不为0.''.False或者iterable为空,all(iterable)返回True,否则返回False. print(all(['a','b',

随机推荐