详解字符串在Python内部是如何省内存的

2025-04-03 08:25:08

起步

Python3 起，str 就采用了 Unicode 编码（注意这里并不是 utf8 编码，尽管 .py 文件默认编码是 utf8 ）。每个标准 Unicode 字符占用 4 个字节。这对于内存来说，无疑是一种浪费。

Unicode 是表示了一种字符集，而为了传输方便，衍生出里如 utf8 , utf16 等编码方案来节省存储空间。Python内部存储字符串也采用了类似的形式。

三种内部表示Unicode字符串

为了减少内存的消耗，Python使用了三种不同单位长度来表示字符串：

每个字符 1 个字节（Latin-1）
每个字符 2 个字节（UCS-2）
每个字符 4 个字节（UCS-4）

源码中定义字符串结构体：

# Include/unicodeobject.h
typedef uint32_t Py_UCS4;
typedef uint16_t Py_UCS2;
typedef uint8_t Py_UCS1;

# Include/cpython/unicodeobject.h
typedef struct {
  PyCompactUnicodeObject _base;
  union {
    void *any;
    Py_UCS1 *latin1;
    Py_UCS2 *ucs2;
    Py_UCS4 *ucs4;
  } data;           /* Canonical, smallest-form Unicode buffer */
} PyUnicodeObject;

如果字符串中所有字符都在 ascii 码范围内，那么就可以用占用 1 个字节的 Latin-1 编码进行存储。而如果字符串中存在了需要占用两个字节（比如中文字符），那么整个字符串就将采用占用 2 个字节 UCS-2 编码进行存储。

这点可以通过 sys.getsizeof 函数外部窥探来验证这个结论：

如图，存储 'zh' 所需的存储空间比 'z' 多 1 个字节， h 在这里占了 1 个字节；

存储 'z中' 所需的存储空间比 '中' 多了 2 个字节，z 在这里占了 2 个字节。

大多数的自然语言采用 2 字节的编码就够了。但如果有一个 1G 的 ascii 文本加载到内存后，在文本中插入了一个 emoji 表情，那么字符串所需的空间将扩大到 4 倍，是不是很惊喜。

为什么内部不采用 utf8 进行编码

最受欢迎的 Unicode 编码方案，Python内部却不使用它，为什么？

这里就得说下 utf8 编码带来的缺点。这种编码方案每个字符的占用字节长度是变化的，这就导致了无法按所以随机访问单个字符，例如 string[n] （使用utf8编码）则需要先统计前n个字符占用的字节长度。所以由 O(1) 变成了 O(n) ，这更无法让人接受。

因此Python内部采用了定长的方式存储字符串。

字符串驻留机制

另一个节省内存的方式就是将一些短小的字符串做成池，当程序要创建字符串对象前检查池中是否有满足的字符串。在内部中，仅包含下划线（_）、字母和数字的长度不高过 20 的字符串才能驻留。驻留是在代码编译期间进行的，代码中的如下会进行驻留检查：

空字符串 '' 及所有；
变量名；
参数名；
字符串常量（代码中定义的所有字符串）；
字典键；
属性名称；

驻留机制节省大量的重复字符串内存。在内部，字符串驻留池由一个全局的 dict 维护，该字段将字符串用作键:

void PyUnicode_InternInPlace(PyObject **p)
{
  PyObject *s = *p;
  PyObject *t;

  if (s == NULL || !PyUnicode_Check(s))
    return;

  // 对PyUnicodeObjec进行类型和状态检查
  if (!PyUnicode_CheckExact(s))
    return;
  if (PyUnicode_CHECK_INTERNED(s))
    return;
  // 创建intern机制的dict
  if (interned == NULL) {
    interned = PyDict_New();
    if (interned == NULL) {
      PyErr_Clear(); /* Don't leave an exception */
      return;
    }
  }

  // 对象是否存在于inter中
  t = PyDict_SetDefault(interned, s, s);

  // 存在， 调整引用计数
  if (t != s) {
    Py_INCREF(t);
    Py_SETREF(*p, t);
    return;
  }
  /* The two references in interned are not counted by refcnt.
    The deallocator will take care of this */
  Py_REFCNT(s) -= 2;
  _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}

变量 interned 就是全局存放字符串池的字典的变量名 interned = PyDict_New()，为了让 intern 机制中的字符串不被回收，设置字典时 PyDict_SetDefault(interned, s, s); 将字符串作为键同时也作为值进行设置，这样对于字符串对象的引用计数就会进行两次 +1 操作，这样存于字典中的对象在程序结束前永远不会为 0，这也是 y_REFCNT(s) -= 2; 将计数减 2 的原因。

从函数参数中可以看到其实字符串对象还是被创建了，内部其实始终会为字符串创建对象，但经过 inter 机制检查后，临时创建的字符串会因引用计数为 0 而被销毁，临时变量在内存中昙花一现然后迅速消失。

字符串缓冲池

除了字符串驻留池，Python 还会保存所有 ascii 码内的单个字符：

static PyObject *unicode_latin1[256] = {NULL};

如果字符串其实是一个字符，那么优先从缓冲池中获取：

[unicodeobjec.c]
PyObject * PyUnicode_DecodeUTF8Stateful(const char *s,
               Py_ssize_t size,
               const char *errors,
               Py_ssize_t *consumed)
{
  ...

  /* ASCII is equivalent to the first 128 ordinals in Unicode. */
  if (size == 1 && (unsigned char)s[0] < 128) {
    return get_latin1_char((unsigned char)s[0]);
  }
  ...
}

然后再经过 intern 机制后被保存到 intern 池中，这样驻留池中和缓冲池中，两者都是指向同一个字符串对象了。

严格来说，这个单字符缓冲池并不是省内存的方案，因为从中取出的对象几乎都会保存到缓冲池中，这个方案是为了减少字符串对象的创建。

总结

本文介绍了两种是节省内存的方案。一个字符串的每个字符在占用空间大小是相同的，取决于字符串中的最大字符。

短字符串会放到一个全局的字典中，该字典中的字符串成了单例模式，从而节省内存。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Python 存储字符串时节省空间的方法

从 Python 3 开始,str 类型代表着 Unicode 字符串.取决于编码的类型,一个 Unicode 字符可能会占 4 个字节,这个有些时候有点浪费内存. 出于内存占用以及性能方面的考虑,Python 内部采用下面 3 种方式来存储 Unicode 字符: 一个字符占一个字节(Latin-1 编码) 一个字符占二个字节(UCS-2 编码) 一个字符占四个字节(UCS-4 编码) 使用 Python 进行开发的时候,我们会觉得字符串的处理都很类似,很多时候根本不需要注意这些差别.可是,当
详解字符串在Python内部是如何省内存的

起步 Python3 起,str 就采用了 Unicode 编码(注意这里并不是 utf8 编码,尽管 .py 文件默认编码是 utf8 ). 每个标准 Unicode 字符占用 4 个字节.这对于内存来说,无疑是一种浪费. Unicode 是表示了一种字符集,而为了传输方便,衍生出里如 utf8 , utf16 等编码方案来节省存储空间.Python内部存储字符串也采用了类似的形式. 三种内部表示Unicode字符串为了减少内存的消耗,Python使用了三种不同单位长度来表示字符串: 每个字
详解Golang 与python中的字符串反转

详解Golang 与python中的字符串反转在go中,需要用rune来处理,因为涉及到中文或者一些字符ASCII编码大于255的. func main() { fmt.Println(reverse("Golang python")) } func reverse(src string) string { dst := []rune(src) len := len(dst) var result []rune result = make([]rune, 0) for i := le
详解如何利用Python绘制科赫曲线

目录 1. 递归 1.1 定义 1.2 数学归纳法 2. 递归的使用方法 2.1 阶乘 2.2 字符串反转 3. 科赫曲线的绘制 3.1 概要 3.2 绘制科赫曲线 3.3 科赫曲线的雪花效果 3.4 分形几何 1. 递归 1.1 定义函数作为一种代码封装, 可以被其他程序调用,当然,也可以被函数内部代码调用.这种函数定义中调用函数自身的方式称为递归.就像一个人站在装满镜子的房间中,看到的影像就是递归的结果.递归在数学和计算机应用上非常强大,能够非常简洁地解决重要问题. 数学上有个经典的递归例
详解如何创建Python元类

什么是Python元类? Python元类是与Python的面向对象编程概念相关的高级功能之一.它确定类的行为,并进一步帮助其修改. 用Python创建的每个类都有一个基础的Metaclass.因此,在创建类时,您将间接使用元类.它隐式发生,您无需指定任何内容. 与元编程相关联的元类决定了程序对其自身进行操作的能力. 学习元类可能看起来很复杂,但是让我们先从一些类和对象的概念入手,以便于理解. Python中的类和对象类是一个蓝图,是具有对象的逻辑实体. 一个简单的类在声明时没有分配任何内存,
详解如何使用Python隐藏图像中的数据

目录编码例子解码程序执行局限性参考隐写术是在任何文件中隐藏秘密数据的艺术. 秘密数据可以是任何格式的数据,如文本甚至文件.简而言之,隐写术的主要目的是隐藏任何文件(通常是图像.音频或视频)中的预期信息,而不实际改变文件的外观,即文件外观看起来和以前一样. 在这篇文章中,我们将重点学习基于图像的隐写术,即在图像中隐藏秘密数据. 但在深入研究之前,让我们先看看图像由什么组成: 1.像素是图像的组成部分. 2.每个像素包含三个值:(红色.绿色.蓝色)也称为 RGB 值. 3.每个 RGB
详解如何使用Python网络爬虫获取招聘信息

目录前言项目目标项目准备反爬措施项目实现效果展示小结前言现在在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息.可是招聘信息有一些是错综复杂的.而且不能把全部的信息全部罗列出来,以外卖的58招聘网站来看,资料整理的不清晰. 项目目标获取招聘信息,并批量把地点. 公司名.工资 .下载保存在txt文档. 项目准备软件:PyCharm 需要的库:requests.lxml.fake_useragent 网站如下: https://gz.58.com/job/
详解c#与python的交互方式

目录前言: 一.IronPython 二.Python打包exe调用三.Python提供WebApi接口(推荐) 总结: 前言: 在平时工作中,需求有多种实现方式:根据不同的需求可以采用不同的编程语言来实现.发挥各种语言的强项如:Python的强项是:数据分析.人工智能等 .NET 开发桌面程序界面比Python更简单.方便.美观那么就存在各种语言间交互,本篇主要介绍几种C# 与 Python的交互方式. 一.IronPython 1.IronPython是什么? IronPython是
基数排序算法的原理与实现详解(Java/Go/Python/JS/C)

目录说明实现过程示意图性能分析代码 Java Python Go JS TS C C++ 链接说明基数排序(RadixSort)是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较.由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能使用于整数.基数排序的发明可以追溯到1887年赫尔曼·何乐礼在列表机(Tabulation Machine)上的基数排序的方式可以采用LSD(Least significant di
详解C++调用Python脚本中的函数的实例代码

1.环境配置安装完python后,把python的include和lib拷贝到自己的工程目录下然后在工程中包括进去 2.例子先写一个python的测试脚本,如下这个脚本里面定义了两个函数Hello()和_add().我的脚本的文件名叫mytest.py C++代码: #include "stdafx.h" #include <stdlib.h> #include <iostream> #include "include\Python.h&quo
详解如何修改python中字典的键和值

我们知道python中字典是无序的,它们都是通过hash去对应的.一般的如果我们需要修改字典的值,只需要直接覆盖即可,而修改字典的键,则需要使用字典自带的pop函数,示例如下: t = {} t['a'] = 1 t['b'] = 2 # 修改字典的值 print('未修改前:', t) t['b'] = 3 print('修改后: ', t) # 修改字典的键 print('-' * 30) print('未修改前:', t) t['c'] = t.pop('a') print('修改后: '

详解字符串在Python内部是如何省内存的

相关推荐

随机推荐