Effective Python bytes 与 str 的区别

目录
  • 1、Python 有两种类型可以表示字符序列
  • 2、Unicode 数据和二进制数据转换
  • 3、使用原始的 8 位值与 Unicode 字符串
    • 3.1 问题一:bytes 和 str 的实例互不兼容
    • 3.2问题二:操作文件句柄时需要使用 Unicode 字符串操作

1、Python 有两种类型可以表示字符序列

  • bytes:实例包含的是 原始数据 ,即 8 位的无符号值(通常按照 ASCII 编码 标准来显示)
  • str:实例包含的是 Unicode 码点(code point,也叫作代码点),这些码点与人类语言之中的文本字符相对应
a = b'h\x6511o'
print(list(a))
print(a)

a = 'a\\u300 propos'
print(list(a))
print(a)

# 输出结果
[104, 101, 49, 49, 111]
b'he11o'

['a', '\\', 'u', '3', '0', '0', ' ', 'p', 'r', 'o', 'p', 'o', 's']
a\u300 propos

2、Unicode 数据和二进制数据转换

  • 把  Unicode 数据转换成二进制数据,必须调用 str 的 encode 方法(编码)
  • 把二进制数据转换成 Unicode 数据,必须调用 bytes 的 decode 方法(解码)
  • 调用这些方法时,可以明确指出字符集编码,也可以采用系统默认的方案,通常是 UTF-8

3、使用原始的 8 位值与 Unicode 字符串

使用原始的 8 位值与 Unicode 字符串时需要注意的两个问题:

  • 该问题等价于:使用 bytes str 时需要注意的两个问题

3.1 问题一:bytes 和 str 的实例互不兼容

使用 + 操作符:

# bytes+bytes
print(b'a' + b'1')

# str+str
print('b' + '2')

# 输出结果
b'a1'
b2
  • bytes + bytesstr + str 都是允许的
  • bytes + str 会报错

#

 bytes+str
print('c' + b'2')

# 输出结果
print('c' + b'2')
TypeError: can only concatenate str (not "bytes") to str

同类型之间也可以用二元操作符来比较大小

assert b'c' > b'a'

assert 'c' > 'a'

bytes str 之间用二元操作符也会报错

assert b'c' > 'a'

# 输出结果
    assert b'c' > 'a'
TypeError: '>' not supported between instances of 'bytes' and 'str'

判断 bytes str 实例是否相等
两个类型的实例相比较总会为 False,即使字符完全相同

# 判断 str、bytes
print('a' == b'a')

# 输出结果
False

格式化字符串中的 %s

两种类型的实例都可以出现在 % 操作符的右侧,用来替换左侧那个格式字符串(format string)里面的 %s

但是!如果格式字符串是 bytes 类型,那么 不能 用 str 实例来替换其中的 %s ,因为 Python 不知道这个 str 应该按照什么字符集来编码

# %
print(b'red %s' % 'blue')

# 输出结果
    print(b'red %s' % 'blue')
TypeError: %b requires a bytes-like object, or an object that implements __bytes__, not 'str'

但是!反过来却可以,如果格式字符串是 str 类型,则 可以 用bytes 实例来替换其中的 %s,但结果可能不是预期结果

# %
print('red %s' % b'blue')

# 输出结果
red b'blue'

这样会让系统在 bytes 实例上面调用  __repr__  方法
调用结果替换格式字符串里的 %s,因此程序会直接输出 b'blue',而不是输出 blue

3.2问题二:操作文件句柄时需要使用 Unicode 字符串操作

不能使用原始的 bytes

向文件写入二进制数据会报错:

# 写入二进制数据
with open('test.txt', "w+") as f:
    f.write(b"\xf1\xf2")

# 输出结果
    f.write(b"\xf1\xf2")
TypeError: write() argument must be str, not bytes
  • 报错是因为 w 模式必须以 文本 模式写入
  • 将模式改成 wb 即可正常写入二进制数据
with open('test.txt', "wb") as f:
    f.write(b"\xf1\xf2")
读取文件中二进制数据
with open('test.txt', "r+") as f:
    f.read()

# 输出结果
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf1 in position 0: invalid continuation byte
  • 报错是因为 r 模式必须以 文本 模式读取
  • 以文本模式操纵文件句柄时,系统会采用 默认的文本编码 方案处理二进制数据
  • 所以,上面那种写法会让系统通过 bytes.decode 把这份数据解码成 str 字符串,再用 str.encode 把字符串编码成二进制值
  • 然而对于大多数系统来说,默认的文本编码方案是UTF-8,所以系统很可能会把 b'\xf1\xf2\xf3\xf4\xf5' 当成  UTF-8 格式的字符串去解码,于是就会出现上面那样的错误

将模式改成 rb 即可正常读取二进制数据:

with open('test.txt', "rb") as f:
    print(b"\xf1\xf2" == f.read())

# 输出结果
True

另一种改法,设置 encoding 参数指定字符串编码:

with open('test.txt', "r", encoding="cp1252") as f:
    print(f.read())

# 输出结果
ñò

这样也不会有异常了

需要注意:当前操作系统默认的字符集编码,Python 一行代码查看当前操作系统默认的编码标准

在 cmd 中执行:

> python3 -c 'import locale; print(locale.getpreferredencoding())'
UTF-8

到此这篇关于Effective Python bytes 与 str 的区别的文章就介绍到这了,更多相关Python bytes 与 str 的区别内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 对python数据清洗容易遇到的函数-re.sub bytes string详解

    re.sub 功能,比replace强大的替换函数,将正则表达式匹配上的模块替换成repl re.sub(pattern, repl, string, count=0, flags=0) 返回最左边正则表达式限定的被repl代替的字符串,如果正则表达式没有匹配上,则字符串不做修改. \n is converted to a single newline character, \r is converted to a carriage return, and so forth. Unknown e

  • Python StringIO及BytesIO包使用方法解析

    StringIO 它主要是用在内存读写str中. 主要用法就是: from io import StringIO f = StringIO() f.write('12345') print(f.getvalue()) f.write('54321') f.write('abcde') print(f.getvalue()) #打印结果 12345 1234554321abcde 也可以使用str初始化一个StringIO然后像文件一样读取. f = StringIO('hello\nworld!

  • Python3中的bytes和str类型详解

    Python 3最重要的新特性之一是对字符串和二进制数据流做了明确的区分.文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示.Python 3不会以任意隐式的方式混用str和bytes,你不能拼接字符串和字节流,也无法在字节流里搜索字符串(反之亦然),也不能将字符串传入参数为字节流的函数(反之亦然). 下面让我们深入分析一下二者的区别和联系. 编码发展的历史 在谈bytes和str之前,需要先说说关于编码是如何发展的.. 在计算机历史的早期,美国为代表的英语系国家主导了整

  • 详解Python中的编码问题(encoding与decode、str与bytes)

    1 引言 在文件读写及字符操作时,我们经常会出现下面这几种错误: TypeError: write() argument must be str, not bytes AttributeError: 'URLError' object has no attribute 'code' UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' inposition 5747: illegal multibyte sequence 这些

  • Python bytes string相互转换过程解析

    一.bytes和string区别 1.python bytes 也称字节序列,并非字符.取值范围 0 <= bytes <= 255,输出的时候最前面会有字符b修饰:string 是python中字符串类型; 2.bytes主要是给在计算机看的,string主要是给人看的: 3.string经过编码encode,转化成二进制对象,给计算机识别:bytes经过解码decode,转化成string,让我们看,但是注意反编码的编码规则是有范围,\xc8就不是utf8识别的范围: if __name_

  • 简单了解Python3 bytes和str类型的区别和联系

    这篇文章主要介绍了简单了解Python3 bytes和str类型的区别和联系,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 Python 3最重要的新特性之一是对字符串和二进制数据流做了明确的区分.文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示.Python 3不会以任意隐式的方式混用str和bytes,你不能拼接字符串和字节流,也无法在字节流里搜索字符串(反之亦然),也不能将字符串传入参数为字节流的函数(反之亦然)

  • python中bytes和str类型的区别

    经过一上午的查找资料.大概理清楚了bytes类型和str类型的区别. bytes类型和str类型在呈现形式有相同之处,如果你print一个bytes类型的变量,会打印一个用b开头,用单引号括起来的序列.比如: >>> c = b'\x80abc' >>> type(c) bytes 我们看到c = b'\x80abc'表示的就是一个bytes类型.是不是和字符串很像?只是前面多出来一个b.那b'\x80abc的含义是什么呢?\x80即16进制的两位数,代表十进制的0-2

  • 解决Python中报错TypeError: must be str, not bytes问题

    如下所示: #!/usr/bin/python import pickle shoplist=['apple','mango','carrot'] f = open('c:\poem.txt','w') pickle.dump(shoplist,f) f.close() del shoplist f = open('c:\poem.txt','r') storedlist = pickle.load(f) print(storedlist) 执行上述程序时候报错: TypeError: must

  • Effective Python bytes 与 str 的区别

    目录 1.Python 有两种类型可以表示字符序列 2.Unicode 数据和二进制数据转换 3.使用原始的 8 位值与 Unicode 字符串 3.1 问题一:bytes 和 str 的实例互不兼容 3.2问题二:操作文件句柄时需要使用 Unicode 字符串操作 1.Python 有两种类型可以表示字符序列 bytes:实例包含的是 原始数据 ,即 8 位的无符号值(通常按照 ASCII 编码 标准来显示) str:实例包含的是 Unicode 码点(code point,也叫作代码点),这

  • Python中bytes和str的区别与联系详解

    目录 Bytes和Str的区别 Bytes与Str间的转换 读写文件的注意事项 总结 Bytes和Str的区别 在Python3中,字符序列有两种类型:bytes和str.bytes类型是无符号的8位值(通常以ASCII码显式),而str类型是Unicode代码点(code point).代码点指编码字符集中,字符所对应的数字. a = b'hello world' print(isinstance(a, bytes)) print(list(a)) print(a) """

  • Python3中内置类型bytes和str用法及byte和string之间各种编码转换 问题

    Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分.文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示.Python 3不会以任意隐式的方式混用str和bytes,正是这使得两者的区分特别清晰.你不能拼接字符串和字节包,也无法在字节包里搜索字符串(反之亦然),也不能将字符串传入参数为字节包的函数(反之亦然). python3.0中怎么创建bytes型数据 bytes([1,2,3,4,5,6,7,8,9]) bytes("python"

  • python2 中 unicode 和 str 之间的转换及与python3 str 的区别

    在python2中字符串分为 unicode 和 str 类型 Str To Unicode 使用decode(), 解码 Unicode To Str 使用encode(), 编码 返回数据给前端时需要先将unicode转换为str类型, 事实上, python2 中的 str 就是一串字节(byte), 而网络通信时, 传输的就是字节. 如果前端需要接收json数据, 需要使用 json.dumps() 将数据转换为json格式进行返回, 当数据是嵌套类型的数据, 内层的数据可能无法直接转换

  • python中从str中提取元素到list以及将list转换为str的方法

    在python中时常需要从字符串类型str中提取元素到一个数组list中,例如str是一个逗号隔开的姓名名单,需要将每个名字提取到一个元素为str型的list中. 如姓名列表str = 'Alice, Bob, John',需要将其提取为name_list = ['Alice', 'Bob', 'John']. 而反过来有时需要将一个list中的字符元素按照指定的分隔符拼接成一个完整的字符串.好在python中str类型本身自带了两种方法(method)提供了相应的功能. str转为list 使

  • python基础字符串str详解

    目录 字符串str: 编码: ord(字符串)和chr(整数): 字符串字面值: 字符串通用操作 字符串str: 定义:是由一系列字符组成的不可变序列容器,储存的事字符的编码值 编码: 1.字节byte:计算机最小储存单位,等于8位bit 2. 字符:单个的数字,文字与字符 3. 字符集(码表):存储字符与二进制序列的对应关系 4. 编码:将字符转换为对应的二进制序列的过程 5. 解码:将二进制序列转换为对应的字符的过程 6. 编码方式: ASCLL编码:包含英文,数字等字符,每个字符1个字节

  • 深入了解Python 中线程和进程区别

    目录 一.什么是进程/线程 1.引论 2.线程 3.进程 4.区别 5.使用 二.多线程使用 1.常用方法 2.常用参数 3.多线程的应用 3.1重写线程法 3.2直接调用法 4.线程间数据的共享 三.多进程使用 1.简介 2.应用 2.1重写进程法 2.2直接调用法 3.进程之间的数据共享 3.1Lock方法 3.2Manager方法 四.池并发 1.语法 2.获取CPU数量 3.线程池 3.进程池 一. 什么是进程 / 线程 1. 引论 众所周知,CPU是计算机的核心,它承担了所有的计算任务

随机推荐