在Python中存储字符串

目录
  • unicode 的三种编码
  • 为什么不使用utf-8编码
  • Latin-1、UCS2、UCS4该使用哪一种?
  • 小结

前言:

在这篇Python字符集和字符编码中我们提到了unicode,该字符集对世界上的文字进行了系统的整理,让计算机可以用统一的方式处理文本,而且目前已经支持超过13万个字符,天然地支持多国语言。

所以不管什么文字,都可以用一个unicode来表示。

但是问题来了,unicode能表示这么多的字符,那么占用的内存一定不低吧。的确,根据当时的编码,一个unicode字符最高会占用到4字节。但是对于西方人来说,明明一个字符就够用了,为啥需要那么多。

于是又出现了utf-8,它是为unicode提供的一个新的编码规则,具有可变长的功能。不同种类的字符占用的大小不同,比如英文字符使用一个字节存储,汉字使用3个字节存储,Emoji 使用4个字节存储。

但Python在表示unicode字符串时,使用的却不是utf-8编码,至于原因我们下面来分析一下。

unicode 的三种编码

从Python3开始,字符串使用的是Unicode。而根据编码的不同,Unicode的每个字符最大可以占到4字节,从内存的角度来说, 这种编码有时会比较昂贵。

为了减少内存消耗并且提高性能,Python的内部使用了三种编码方式来表示Unicode:

  • Latin-1 编码:每个字符一字节;
  • UCS2 编码:每个字符两字节;
  • UCS4 编码:每个字符四字节;

在Python编程中,所有字符串的行为都是一致的,而且大多数时间我们都没有注意到差异。然而在处理大文本的时候,这种差异就会变得异常显著、甚至有些让人出乎意料。

为了看到内部表示的差异,我们使用sys.getsizeof函数,查看一个对象所占的字节数。

import sys
print(sys.getsizeof("a"))  # 50
print(sys.getsizeof("憨"))  # 76
print(sys.getsizeof(""))  # 80

我们看到都是一个字符,但是它们占用的内存却是不一样的。因为Python面对不同的字符会采用不同的编码,进而导致大小不同。

但需要注意的是:Python的每一个字符串都需要额外占用49-80字节,因为要存储一些额外的信息,比如:公共的头部、哈希、长度、字节长度、编码类型等等。

import sys
# 对于ASCII字符,一个占1字节,显然此时编码是Latin-1编码
print(sys.getsizeof("ab") - sys.getsizeof("a"))  # 1
# 对于汉字,日文等等,一个占用2字节,此时是UCS2编码
print(sys.getsizeof("憨憨") - sys.getsizeof("憨"))  # 2
print(sys.getsizeof("です") - sys.getsizeof("で"))  # 2
# 像emoji,则是一个占4字节 ,此时是UCS4编码
print(sys.getsizeof("") - sys.getsizeof(""))  # 4

而采用不同的编码,那么底层结构体实例的额外部分也会占用不同大小的内存。
如果编码是Latin-1,那么这个结构体实例额外的部分会占49个字节;编码是UCS2,占74个字节;编码是UCS4,占76个字节。然后字符串所占的字节数就等于:额外的部分 + 字符个数 * 单个字符所占的字节。

import sys
# 所以一个空字符串占用49个字节
# 此时会采用占用内存最小的Latin-1编码
print(sys.getsizeof(""))  # 49
# 此时使用UCS2
print(sys.getsizeof("憨") - 2)  # 74
# UCS4
print(sys.getsizeof("") - 4)  # 76

为什么不使用utf-8编码

上面提到的三种编码,是Python在底层所使用的,但我们知道unicode还有一个utf-8编码,那Python为啥不用呢?

先来抛出一个问题:首先我们知道Python支持通过索引查找一个字符串指定位置的字符,而且Python默认是以字符为单位的,不是字节(我们后面还会提),比如s[2]搜索的就是字符串s中的第3个字符。

s = "古明地觉"
print(s[2]) # 地

那么问题来了,我们知道通过索引查找字符串的某个字符,时间复杂度为O(1),那么Python是怎么通过索引瞬间定位到指定字符的呢?

显然是通过指针的偏移,用索引乘上每个字符占的字节数,得到偏移量,然后从头部向后偏移指定数量的字节即可,这样就能在定位到指定字符的同时还保证时间复杂度为O(1)。

但是这需要一个前提:字符串中每个字符所占的大小必须是相同的,如果字符占的大小不同,比如有的占1字节、有的占3字节,显然就无法通过指针偏移的方式了。这个时候若还想准确定位的话,只能按顺序对所有字符都逐个扫描,但这样的话时间复杂度肯定不是O(1),而是O(n)

我们以Go为例,Go的字符串默认就是使用的utf-8编码:

package main
import (
    "fmt"
)
func main() {
    s := "古明地觉"
    fmt.Println(s[2])  // 164
    fmt.Println(string(s[2]))  // ¤
}

惊了,我们看到打印的并不是我们希望的结果。因为Go底层使用的是utf-8编码,不同的字符可能会占用不同的字节。但是Go通过索引定位的时候,时间复杂度也是O(1),所以定位的时候是以字节为单位、而不是字符。在获取的时候也只会获取一个字节,而不是一个字符。

所以s[2]在Go里面指的是第3个字节,而不是第3个字符,而汉字在utf-8编码下占3个字节,所以s[2]指的就是汉字古的第三个字节。我们看到打印的时候,该字节存的值为164。

s = "古明地觉"
print(s.encode("utf-8")[2])  # 164

这就是采用utf-8编码带来的弊端,它无法让我们以O(1)的时间复杂度去准确地定位字符,尽管它在存储的时候更加的省内存。

Latin-1、UCS2、UCS4该使用哪一种?

我们说Python会使用3种编码来表示unicode,所占字节大小分别是1、2、4字节。

因此Python在创建字符串的时候,会先扫描,尝试使用占字节数最少的Latin-1编码存储,但是范围肯定有限。如果发现了存储不下的字符,只能改变编码,使用UCS2,继续扫描。但是又发现了新的字符,这个字符UCS2也无法存储,因为两个字节最多存储65535个不同的字符,所以会再次改变编码,使用UCS4。UCS4占四个字节,肯定能存下了。

一旦改变编码,字符串中的所有字符都会使用同样的编码,因为它们不具备可变长功能。比如这个字符串:"hello古明地觉",肯定都会使用UCS2,不存在说hello使用Latin1,古明地觉使用UCS2,因为一个字符串只能有一个编码。

当通过索引获取的时候,会将索引乘上每个字符占的字节数,这样就能跳到准确位置上,因为字符串里面的所有字符占用的字节都是一样的,然后获取的时候也会获取指定的字节数。比如:使用UCS2编码,那么定位到某个字符的时候,会取两个字节,这样才能表示一个完整的字符。

import sys
# 此时全部是ascii字符,那么Latin-1编码可以存储
# 所以结构体实例额外的部分占49个字节
s1 = "hello"
# 有5个字符,一个字符一个字节,所以加一起是54个字节
print(sys.getsizeof(s1))  # 54
# 出现了汉字,那么Latin-1肯定存不下,于是使用UCS2
# 所以此时结构体实例额外的部分占74个字节
# 但是别忘了此时的英文字符也是ucs2,所以也是一个字符两字节
s2 = "hello憨"
# 6个字符,74 + 6 * 2 = 86
print(sys.getsizeof(s2))  # 86
# 这个牛逼了,ucs2也存不下,只能ucs4存储了
# 所以结构体实例额外的部分占76个字节
s3 = "hello憨"
# 此时所有字符一个占4字节,7个字符
# 76 + 7 * 4 = 104
print(sys.getsizeof(s3))  # 104

除此之外,我们再举一个例子更形象地证明这个现象。

import sys
s1 = "a" * 1000
s2 = "a" * 1000 + ""
# 我们看到s2只比s1多了一个字符
# 但是两者占的内存,s2却将近是s1的四倍。
print(sys.getsizeof(s1), sys.getsizeof(s2))  # 1049 4080

我们知道s2和s1的差别只是s2比s1多了一个字符,但就是这么一个字符导致s2比s1多占了3031个字节。然而这3031个字节不可能是多出来的字符所占的大小,什么字符一个会占到三千多个字节,这是不可能的。

尽管如此,但它也是罪魁祸首,不过前面的1000个字符也是共犯。我们说Python会根据字符串选择不同的编码,s1全部是ascii字符,所以Latin1能存下,因此一个字符只占一个字节。所以大小就是49 + 1000 = 1049。

但是对于s2,Python发现前1000个字符Latin1能存下,不幸的是最后一个字符存不下,于是只能使用UCS4。而字符串的所有字符只能有一个编码,为了保证索引查找的时间复杂度为O(1),前面一个字节就能存下的字符,也需要用4字节来存储。这是Python的设计策略。

而我们说使用UCS4,结构体额外的部分会占76个字节,因此s2的大小就是:76 + 1001 * 4 = 4080

print(sys.getsizeof("爷的青春回来了"))  # 88
print(sys.getsizeof("的青春回来了"))  # 104

字符数量相同但是占用内存大小不同,相信原因你肯定能分析出来。

所以如果字符串中的所有字符都是ASCII字符,则使用1字节Latin1对其进行编码。基本上,Latin1能表示前256个Unicode字符,它支持多种拉丁语,如英语、瑞典语、意大利语、挪威语。但是它们不能存储非拉丁语言,比如汉语、日语、希伯来语、西里尔语。这是因为它们的代码点(数字索引)定义在1字节(0-255)范围之外。

大多数流行的自然语言都可以采用2字节(UCS2)编码,但当字符串包含特殊符号、emoji或稀有语言时,则使用4字节(UCS4)编码。Unicode标准有将近300个块(范围),你可以在0XFFFF块之后找到4字节块。

假设我们有一个10G的ASCII文本,我们想把它加载到内存中,但如果我们在文本中插入一个表情符号,那么字符串的大小将增加4倍。这是一个巨大的差异,你可能会在实践当中遇到,比如处理NLP问题。

print(ord("a"))  # 97
print(ord("憨"))  # 25000
print(ord(""))  # 128187

所以最著名和最流行的Unicode编码都是utf-8,但是Python不在内部使用它,而是使用Latin1、UCS2、UCS4。至于原因我们上面已经解释的很清楚了,主要是Python的索引是基于字符,而不是字节。

当一个字符串使用utf-8编码存储时,每个字符会根据自身选择一个合适的大小。这是一种存储效率很高的编码,但是它有一个明显的缺点。由于每个字符的字节长度可能不同,就导致无法按照索引瞬间定位到单个字符,即便能定位,也无法定位准确。如果想准,那么只能逐个扫描所有字符。

假设要对使用utf-8编码的字符串执行一个简单的操作,比如s[5],就意味着Python需要扫描每一个字符,直到找到需要的字符,这样效率是很低的。

但如果是固定长度的编码就没有这样的问题,所以当Latin 1存储的hello,在和UCS2存储的古明地觉组合之后,整体每一个字符都会向大的方向扩展、变成了2字节。

这样定位字符的时候,只需要将索引 * 2便可计算出偏移的字节数、然后跳转该字节数即可。但如果原来的hello还是一个字节、而汉字是2字节,那么只通过索引是不可能定位到准确字符的,因为不同类型字符的大小不同,必须要扫描整个字符串才可以。但是扫描字符串,效率又比较低,所以Python内部才会使用这个方法,而不是使用utf-8。

所以对于Go来讲,如果想像Python一样,那么需要这么做:

package main
import (
    "fmt"
)

func main() {
    s := "hello古明地觉"
    //我们看到长度为17, 因为它使用utf-8编码
    fmt.Println(s, len(s)) // hello古明地觉 17

    //如果想像Python一样
    //那么Go提供了一个rune,相当于int32
    //此时每个字符均使用4个字节,所以长度变成了9
    r := []rune(s)
    fmt.Println(string(r), len(r)) // hello古明地觉 9
    //虽然打印的内容是一样的,但是此时每个字符都使用4字节存储

    //此时跳转会和Python一样偏移 5 * 4 个字节
    //然后获取也会获取4个字节,因为一个字符占4个字节
    fmt.Println(string(r[5])) //古
}

所以utf-8编码的unicode字符串里面的字符可能占用不同的字节,显然没办法实现当前Python字符串的索引查找效果,因此Python没有使用utf-8编码。

Python的做法是让字符串的所有字符都占用相同的字节,先使用占用内存最小的Latin1,不行的话再使用UCS2、UCS4,总之会确保每个字符占用的字节是一样的。至于原因的话我们上面分析的很透彻了,因为无论是索引还是切片、还是计算长度等等,都是基于字符来的,显然这也符合人类的思维习惯。

小结

Python字符串的存储策略,它并没有使用最为流行的utf-8,归根结底就在于这种编码不适合Python的字符串。当然,我们在将字符串转成字节序列的时候,一般使用的都是utf-8编码。

到此这篇关于在Python中存储字符串的文章就介绍到这了,更多相关Python存储字符串内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python读取和存储yaml文件的方法

    YAML 是 "YAML Ain't a Markup Language"(YAML 不是一种标记语言)的递归缩写.在开发的这种语言时,YAML 的意思其实是:"Yet Another Markup Language"(仍是一种标记语言). YAML 的语法和其他高级语言类似,并且可以简单表达清单.散列表,标量等数据形态.它使用空白符号缩进和大量依赖外观的特色,特别适合用来表达或编辑数据结构.各种配置文件.倾印调试内容.文件大纲(例如:许多电子邮件标题格式和YAML

  • Python图片存储和访问的三种方式详解

    目录 前言 数据准备 一个可以玩的数据集 图像存储的设置 LMDB HDF5 单一图像的存储 存储到 磁盘 存储到 LMDB 存储 HDF5 存储方式对比 多个图像的存储 多图像调整代码 准备数据集对比 单一图像的读取 从 磁盘 读取 从 LMDB 读取 从 HDF5 读取 读取方式对比 多个图像的读取 多图像调整代码 准备数据集对比 读写操作综合比较 数据对比 并行操作 前言 ImageNet 是一个著名的公共图像数据库,用于训练对象分类.检测和分割等任务的模型,它包含超过 1400 万张图像

  • Python爬虫,获取,解析,存储详解

    目录 1.获取数据 2.解析数据 3.数据保存为CSV格式和存入数据库 总结 1.获取数据 import requests def drg(url): try: head ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/\ 537.36 (KHTML, like Gecko) Chrome/\ 91.0.4472.164 Safari/537.36'} r = requests.get(url,head

  • python爬取bilibili网页排名,视频,播放量,点赞量,链接等内容并存储csv文件中

    首先要了解html标签,标签有主有次,大致了解以一下,主标签是根标签,也是所有要爬取的标签的结合体 先了解一下待会要使用代码属性: #获取属性 a.attrs  获取a所有的属性和属性值,返回一个字典 a.attrs['href']   获取href属性 a['href']   也可简写为这种形式   #获取内容 a.string      获取a标签的直系文本 注意:如果标签还有标签,那么string获取到的结果为None,而其它两个,可以获取文本内容 a.text  这是属性,获取a子类的所

  • 关于python变量的引用以及在底层存储原理

    目录 1.变量的引用的底层原理 2.变量的分类 Python的变量,简单来说有数值型,布尔型,字符串类型,列表,元组,字典等6大类.那么不同变量类型在底层是如何存储的,关系到变量的引用,能否正确的掌握变量的相关操作 下面v1,v2的值分别是多少?为什么? v1 =3 v2=v1 print("v2:",v2) v1 += 2 print("v1:",v1) print("v2:",v2) #下面l2的值又是多少?为什么? l1 = [1,2,3]

  • python持久化存储文件操作方法

    存储文件的重要 一个程序在运行过程中用了九牛二虎之力终于计算出了结果,试想一下如果不把这些数据存放起来,相比重启电脑之后,. 默认数据是加载到内存中,结果也是保存到内存中, 程序执行结束,所有的数据释放. 要读取二进制文件,比如图片.视频等等,用'rb', 'wb', 'ab'等模式打开文件即可! mode: r:只能读文件 w:只能写入(清空文件内容) a+:读写(追加) 打开文件: f = open('doc/hello.txt',mode='a') 文件的读写操作 f.write('\nh

  • Python 存储字符串时节省空间的方法

    从 Python 3 开始,str 类型代表着 Unicode 字符串.取决于编码的类型,一个 Unicode 字符可能会占 4 个字节,这个有些时候有点浪费内存. 出于内存占用以及性能方面的考虑,Python 内部采用下面 3 种方式来存储 Unicode 字符: 一个字符占一个字节(Latin-1 编码) 一个字符占二个字节(UCS-2 编码) 一个字符占四个字节(UCS-4 编码) 使用 Python 进行开发的时候,我们会觉得字符串的处理都很类似,很多时候根本不需要注意这些差别.可是,当

  • 在Python中存储字符串

    目录 unicode 的三种编码 为什么不使用utf-8编码 Latin-1.UCS2.UCS4该使用哪一种? 小结 前言: 在这篇Python字符集和字符编码中我们提到了unicode,该字符集对世界上的文字进行了系统的整理,让计算机可以用统一的方式处理文本,而且目前已经支持超过13万个字符,天然地支持多国语言. 所以不管什么文字,都可以用一个unicode来表示. 但是问题来了,unicode能表示这么多的字符,那么占用的内存一定不低吧.的确,根据当时的编码,一个unicode字符最高会占用

  • Python中的字符串操作和编码Unicode详解

    本文主要给大家介绍了关于 Python中的字符串操作和编码Unicode的一些知识,下面话不多说,需要的朋友们下面来一起学习吧. 字符串类型 str:Unicode字符串.采用''或者r''构造的字符串均为str,单引号可以用双引号或者三引号来代替.无论用哪种方式进行制定,在Python内部存储时没有区别. bytes:二进制字符串.由于jpg等其他格式的文件不能用str进行显示,所以才用bytes来表示,bytes的每个字节为一个0-255的数字.如果打印的时候,Python会把能够用ASCI

  • 浅谈python中str字符串和unicode对象字符串的拼接问题

    str字符串 s = '中文' # s: <type 'str'> s是个str对象,中文字符串.存储方式是字节码.字节码是怎么存的: 如果这行代码在python解释器中输入&运行,那么s的格式就是解释器的编码格式: 如果这行代码是在源码文件中写入.保存然后执行,那么解释器载入代码时就将s初始化为文件指定编码(比如py文件开头那行的utf-8): unicode对象字符串 unicode是一种编码标准,具体的实现可能是utf-8,utf-16,gbk等等,这就是中文字符串和unicod

  • Python中过滤字符串列表的方法

    Python使用列表数据类型在顺序索引中存储多个数据.它的工作方式类似于其他编程语言的数字数组.filter()方法是Python的一种非常有用的方法.可以使用filter()方法从Python中的任何字符串.列表或字典中过滤一个或多个数值.它根据任何特定条件过滤数据.当条件返回true时,它将存储数据,而返回false时将丢弃数据.本文通过使用不同的示例展示了如何在Python中过滤列表中的字符串数据.您必须使用Python 3+来测试本文的示例. 使用另一个列表过滤字符串列表 本示例说明了如

  • 复习Python中的字符串知识点

    字符串 在 Python 中创建字符串对象非常容易.只要将所需的文本放入一对引号中,就完成了一个新字符串的创建(参见清单 1).如果稍加思考的话,您可能会感到有些困惑.毕竟,有两类可以使用的引号:单引号 (') 和双引号 (").幸运的是,Python 再一次使这种问题迎刃而解.您可以使用任意一类引号来表示 Python 中的字符串,只要引号一致就行.如果字符串是以单引号开始,那么必须以单引号结束,反之亦然.如果不遵循这一规则,则会出现 SyntaxError 异常. 清单 1. 在 Pytho

  • python中根据字符串调用函数的实现方法

    在python中可以根据字符串来调用函数: 1.使用getattr从字符串来调用函数 在多进程中,可能传递过来的是一个字符串,那么我怎么来调用一个已经存在的函数呢,主要就是使用到getattr函数的作用,这个函数就是在使用字符串得到这个字符串对应的函数的对象,然后就可以进行执行,如下所示: 在模块中,存在两个函数: [root@python 530]# cat attr.py #!/usr/bin/env python def kel(): print 'this is a kel functi

  • Python中关于字符串对象的一些基础知识

    Python的字符串被划分为不可变序列的类别,意味着这些字符串所包含的字符存在从左至右的位置顺序,并且它们不可以在本地进行修改. 基本操作 字符串可以通过+操作符进行合并,可以使用*运算符进行重复. >>>len("abc") 3 >>>'abc'+'def' 'abcdef' >>>'NI!'*4 'NI!NI!NI!NI!' 字符串内部的一个反斜杠"\"可允许把字符串放于多行. >>>str

  • Python中的字符串类型基本知识学习教程

    如果对自然语言分类,有很多中分法,比如英语.法语.汉语等,这种分法是最常见的.在语言学里面,也有对语言的分类方法,比如什么什么语系之类的.我这里提出一种分法,这种分法尚未得到广大人民群众和研究者的广泛认同,但是,我相信那句"真理是掌握在少数人的手里",至少在这里可以用来给自己壮壮胆. 我的分法:一种是语言中的两个元素(比如两个字)拼接在一起,出来一个新的元素(比如新的字):另外一种是两个元素拼接在一起,只是得到这两个元素的并列显示.比如"好"和"人&quo

  • 详解Golang 与python中的字符串反转

    详解Golang 与python中的字符串反转 在go中,需要用rune来处理,因为涉及到中文或者一些字符ASCII编码大于255的. func main() { fmt.Println(reverse("Golang python")) } func reverse(src string) string { dst := []rune(src) len := len(dst) var result []rune result = make([]rune, 0) for i := le

  • Python中的字符串切片(截取字符串)的详解

    字符串索引示意图 字符串切片也就是截取字符串,取子串 Python中字符串切片方法 字符串[开始索引:结束索引:步长] 切取字符串为开始索引到结束索引-1内的字符串 步长不指定时步长为1 字符串[开始索引:结束索引] 练习样例 # 1.截取2 - 5位置的字符 num_str_1 = num_str[2:6] print(num_str_1) # 2.截取2 - 末尾的字符 # 当开始索引和结束索引为开始和结束时可以省略不写 num_str_1 = num_str[2:] print(num_s

随机推荐