详解Python小数据池和代码块缓存机制

2025-12-19 01:51:52

前言

本文除"总结"外，其余均为认识过程；3.7.5；这部分官方文档不知道在哪里找，目前没有找到，有谁知道的可以麻烦留言吗? 谢谢了！

总结：

如果在同一代码块下，则采用同一代码块下的缓存机制；
如果是不同代码块，则采用小数据池的驻留机制；
需要注意的是，交互式输入时，每个命令都是一个代码块；

实现 Intern 保留机制的方式非常简单，就是通过维护一个字符串储蓄池，这个池子是一个字典结构，编译时，如果字符串已经存在于池子中就不再去创建新的字符串，直接返回之前创建好的字符串对象，
如果之前还没有加入到该池子中，则先构造一个字符串对象，并把这个对象加入到池子中去，方便下一次获取；

长度为0与1的字符串一定会被驻留;
字符串驻留发生在程序编译时;
被驻留的字符串必须由 ASCll 字母, 数字以及下划线组成;

1.代码块的缓存机制

Python 程序是由代码块构造的。块是一个 Python 程序的文本，它是作为一个单元执行的。
代码块：一个模块, 一个函数, 一个类, 一个文件等都是一个代码块；
交互方式：在 cmd 中进入 Python 解释器里面，输入的每一条命令都是一个代码块；

Python 在执行同一个代码块的初始化对象的命令时，会检查其值是否存在，如果存在，会将其重用；
满足代码块的缓存机制则它们在内存中只存在一个，即：id相同；
代码块的缓存机制的适用范围： int(float)，str，bool；

int(float): 任何数字在同一代码块下都会复用；
bool: True 和 False 在字典中会以 1，0 方式存在，并且复用；
str：同一代码块中，值相同的字符串在内存中只存在一个：

s1 = 'janes@！#*ewq'
s2 = 'janes@！#*ewq'
print(s1 is s2)	 # True 

a1 = 'janes45613256132!@#$%#^%@$%' * 1
b1 = 'janes45613256132!@#$%#^%@$%' * 1
print(a1 is b1) # True

s1 = 'hah_' * 6
s2 = 'hah_' * 6
print(s1 is s2) # True

2.小数据池

Python 自动将 -5~256 的整数进行了缓存，当你将这些整数赋值给变量时，并不会重新创建对象，而是使用已经创建好的缓存对象；
Python会将满足一定规则的字符串在字符串驻留池中，创建一份，当你将这些字符串赋值给变量时，并不会重新创建对象，而是使用在字符串驻留池中创建好的对象；
bool 值就是 True，False，无论你创建多少个变量指向 True，False，它在内存中都只存在一个；

小数据池也是只针对 int(float)，str，bool；
小数据池是针对不同代码块之间的缓存机制；

# cmd, -5~256 的小整数虽然不在同一代码块中, 但是它们适用小数据池机制
>>>a = 245
>>>b = 245
>>>a is b # True

# 长度为0与1的字符串一定会被驻留;
# 字符串驻留发生在程序编译时;
# 被驻留的字符串必须由 ASCll字母, 数字以及下划线组成;
>>>s1 = '@'
>>>s2 = '@'
>>>s1 is s2 # True

>>>s1 = ''
>>>s2 = ''
>>>s1 is s2 # True

>>>s1 = 'a_b_c'
>>>s2 = 'a_b_c'
>>>s1 is s2 # True

>>>s1 = 'a b_c'
>>>s2 = 'a b_c'
>>>s1 is s2 # False

>>>s1 = 'a_b_c' * 1
>>>s2 = 'a_b_c' * 1
>>>s1 is s2 # True

>>>s1 = 'abd_d23' * 3
>>>s2 = 'abd_d23' * 3
>>>s1 is s2 # True

>>>a, b = "some_thing!", "some_thing!"
>>>a is b # False

>>>a, b = "some_thing", "some_thing"
>>>a is b # True

a1 = 1000
b1 = 1000
a1 is b1 # True

class C1(object): 
   a = 100
   b = 100
   c = 1000
   d = 1000

class C2(object):
   a = 100
   b = 1000

print(C1.a is C1.b)  # True
print(C1.a is C2.a)  # True
print(C1.c is C1.d)  # True
print(C1.c is C2.b)  # False

3.优缺点

优点：值相同的字符串的（比如标识符），直接从池里拿来用，避免频繁的创建和销毁，提升效率，节约内存；

缺点：拼接字符串、对字符串修改之类的影响性能；
因为是不可变的，所以对字符串修改不是 inplace 就地操作，要新建对象，这也是为什么拼接多字符串的时候不建议用 + 而用 join()；
join() 是先计算出所有字符串的长度，然后一一拷贝，只 new 一次对象；

小整数对象池

为避免整数频繁申请和销毁内存空间，python 使用了小整数对象池，Python 对小整数的定义是 [-5, 256] ，这些整数对象是提前建立好的，不会被垃圾回收；
一个 Python 程序中，无论这个整数处于 LEGB 中哪个位置，所有位于这个范围内的整数使用的都是同一个对象;

# 3.7.5, ipython7.18.1
a = -5
b = -5
a is b # True

a = -6
b = -6
a is b # False

a = 256
b = 256
a is b # True

a = 257
b = 257
a is b # Flase

大整数对象池

cmd 终端中，大整数每赋值一次，每次的大整数都会重新创建，Pycharm 中，每次运行时，所有代码都加载到内存中，属于一个整体，所以这个时候会有一个大整数对象池处于一个代码块的大整数是同一个对象；
c 和 d 处于一个代码块，而 C1.b 和 C2.b 分别有自己的代码块，所以不相等；

# cmd 终端
a = 1000
b = 1000
a is b # False
--------------------
class C1(object): 
   a = 100
   b = 100
   c = 1000
   d = 1000

class C2(object):
   a = 100
   b = 1000

print(C1.a is C1.b)  # True
print(C1.a is C2.a)  # True
print(C1.c is C1.d)  # True ?? 难道 cmd 中也有大整数池 ?? 类加载的时候是在一块内存中,同值同地址 ??
print(C1.c is C2.b)  # False

# pycharm 等编辑器中
a = 1000
b = 1000
a is b # True
--------------------
class C1(object): 
   a = 100
   b = 100
   c = 1000
   d = 1000

class C2(object):
   a = 100
   b = 1000

print(C1.a is C1.b)  # True
print(C1.a is C2.a)  # True
print(C1.c is C1.d)  # True
print(C1.c is C2.b)  # False

字符串驻留机制

　　Python 解释器为了提高字符串使用的效率和使用性能，编译时，使用了 intern（字符串驻留）技术来提高字符串效率，什么是 intern 机制？即值同样的字符串对象仅仅会保存一份，放在一个字符串储蓄池中，是共用的，当然，肯定不能改变，这也决定了字符串必须是不可变对象(整数类型也是不可变对象)??，浮点数就不行 ;

简单原理：

　　实现 Intern 保留机制的方式非常简单，就是通过维护一个字符串储蓄池，这个池子是一个字典结构，编译时，如果字符串已经存在于池子中就不再去创建新的字符串，直接返回之前创建好的字符串对象，如果之前还没有加入到该池子中，则先构造一个字符串对象，并把这个对象加入到池子中去，方便下一次获取。；
　　但是，解释器内部对intern 机制的使用策略是有考究的，有些场景会自动使用 intern ，有些地方需要通过手动方式才能启动，看下面几个常见情景：

# cmd 中浮点数没有被缓存
a = 1.0
b = 1.0
a is b # False

# cmd 中并非全部的字符串都会采用intern机制; 仅 包括下划线、数字、字母的字符串才会被 intern--类标识符
s1="hello"
s2="hello"
s1 is s2 # True

# 如果有空格，默认不启用intern机制
s1="hell o"
s2="hell o"
s1 is s2 # False

s1 = "hell!*o"
s2 = "hell!*o"
print(s1 is s2) # False

# 如果一个字符串长度超过20个字符，不启动intern机制 -- 看网上很多都是这么写的, 不超过二十个就为真，但是我在自己 3.7/8.5 版本上试了一下，发现好像没有限制，不知道是 Python 更新了，还是什么问题……
s1 = "a" * 20
s2 = "a" * 20
s1 is s2 # True

s1 = "a" * 21
s2 = "a" * 21
s1 is s2 # True

s1 = "ab" * 10
s2 = "ab" * 10
s1 is s2 # True

s1 = "ab" * 11
s2 = "ab" * 11
s1 is s2 # True

# 'kz' + 'c' 编译时已经变成 'kzc'，而 s1 + 'c' 中 s1 是变量, 会在运行时进行拼接,所以没有被intern?
'kz' + 'c' is 'kzc' # True

s1 = 'kz'
s2 = 'kzc'
s1+'c' is 'kzc' # False

# pycharm 等编辑器中，只要是同一个字符串，都为 True，并不用是下划线、数字、字母的字符串
s1 = "hell o"
s2 = "hell o"
print(s1 is s2) # True

s1 = "hell!*o"
s2 = "hell!*o"
print(s1 is s2) # True

s1 = "a" * 20
s2 = "a" * 20
print(s1 is s2) # True

s1 = "a" * 21
s2 = "a" * 21
print(s1 is s2) # True

s1 = "ab" * 10
s2 = "ab" * 10
print(s1 is s2) # True

s1 = "ab" * 11
s2 = "ab" * 11
print(s1 is s2) # True

'kz' + 'c' is 'kzc' # True

s1 = 'kz'
s2 = 'kzc'
s1+'c' is 'kzc' # False

# 编辑器中，float 也被缓存了
a = 1.0
b = 1.0
a is b

以上就是详解Python 小数据池和代码块缓存机制的详细内容，更多关于Python 小数据池和代码块缓存机制的资料请关注我们其它相关文章！

python多线程+代理池爬取天天基金网、股票数据过程解析

简介提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段.为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作. 本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显. 技术路线 IP代理池多线程爬虫与反爬编写思路首先,开始分析天天基金网的一些数据.经过抓包分析,可知: ./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败的情况. 同时,经
python爬虫构建代理ip池抓取数据库的示例代码

爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检测是否可用,可用保存,通过函数get_proxies可以获得ip,如:{'HTTPS': '106.12.7.54:8118'} 下面放上源代码,并详细注释: import requests from lxml import etree from requests.packages import u
Python MySQL数据库连接池组件pymysqlpool详解

引言 pymysqlpool (本地下载)是数据库工具包中新成员,目的是能提供一个实用的数据库连接池中间件,从而避免在应用中频繁地创建和释放数据库连接资源. 功能连接池本身是线程安全的,可在多线程环境下使用,不必担心连接资源被多个线程共享的问题: 提供尽可能紧凑的接口用于数据库操作: 连接池的管理位于包内完成,客户端可以通过接口获取池中的连接资源(返回 pymysql.Connection): 将最大程度地与 dataobj 等兼容,便于使用: 连接池本身具备动态增加连接数的功能,即 max_
Python代码块及缓存机制原理详解

这篇文章主要介绍了Python代码块及缓存机制原理详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1.相同的字符串在Python中地址相同 s1 = 'panda' s2 = 'panda' print(s1 == s2) #True print(id(s1) == id (s2)) #True 2.代码块: 所有的代码都需要依赖代码块执行. 一个模块,一个函数,一个类,一个文件等都是一个代码块交互式命令中, 一行就是一个代码块
Python实现Mysql数据库连接池实例详解

python连接Mysql数据库: Python编程中可以使用MySQLdb进行数据库的连接及诸如查询/插入/更新等操作,但是每次连接MySQL数据库请求时,都是独立的去请求访问,相当浪费资源,而且访问数量达到一定数量时,对mysql的性能会产生较大的影响.因此,实际使用中,通常会使用数据库的连接池技术,来访问数据库达到资源复用的目的. 数据库连接池 python的数据库连接池包 DBUtils: DBUtils是一套Python数据库连接池包,并允许对非线程安全的数据库接口进行线程安全包装.D
详解Python小数据池和代码块缓存机制

前言本文除"总结"外,其余均为认识过程:3.7.5:这部分官方文档不知道在哪里找,目前没有找到,有谁知道的可以麻烦留言吗? 谢谢了! 总结: 如果在同一代码块下,则采用同一代码块下的缓存机制: 如果是不同代码块,则采用小数据池的驻留机制: 需要注意的是,交互式输入时,每个命令都是一个代码块: 实现 Intern 保留机制的方式非常简单,就是通过维护一个字符串储蓄池,这个池子是一个字典结构,编译时,如果字符串已经存在于池子中就不再去创建新的字符串,直接返回之前创建好的字符串对象, 如果
详解R语言数据合并一行代码搞定

数据的合并需要的函数 cbind(),rbind(),bind_rows(),merge() 准备数据我们先构造一组数据,以便下面的演示 > data1<-data.frame( + namea=c("海波","立波","秀波"), + value=c("一波","接","一波") + ) > data1 namea value 1 海波一波 2 立波接 3 秀
详解Python进行数据相关性分析的三种方式

目录相关性实现 NumPy 相关性计算 SciPy 相关性计算 Pandas 相关性计算线性相关实现线性回归:SciPy 实现等级相关排名:SciPy 实现等级相关性:NumPy 和 SciPy 实现等级相关性:Pandas 实现相关性的可视化带有回归线的 XY 图相关矩阵的热图 matplotlib 相关矩阵的热图 seaborn 相关性实现统计和数据科学通常关注数据集的两个或多个变量(或特征)之间的关系.数据集中的每个数据点都是一个观察值,特征是这些观察值的属性或属性.
详解java中的四种代码块

在java中用{}括起来的称为代码块,代码块可分为以下四种: 一.简介 1.普通代码块: 类中方法的方法体 2.构造代码块: 构造块会在创建对象时被调用,每次创建时都会被调用,优先于类构造函数执行. 3.静态代码块: 用static{}包裹起来的代码片段,只会执行一次.静态代码块优先于构造块执行. 4.同步代码块: 使用synchronized(){}包裹起来的代码块,在多线程环境下,对共享数据的读写操作是需要互斥进行的,否则会导致数据的不一致性.同步代码块需要写在方法中. 二.静态代码块和构造
Java 常量池详解之字符串常量池实现代码

目录 1.字符串常量池(String Constant Pool) 1.1:字符串常量池在Java内存区域的哪个位置? 1.2:字符串常量池是什么? 1.3 字符串常量池生成的时机? 如何将String对象放入到常量池 String 对象代码案例解析 new string(“abc”)创建了几个对象解析public native String intern() 方法 Integer 对象代码案例解析为啥Integer i1 =10 跟Integer.valueOf(10) 是相等的? 为啥I
详解Python之数据序列化（json、pickle、shelve）

一.前言 1. 现实需求每种编程语言都有各自的数据类型,其中面向对象的编程语言还允许开发者自定义数据类型(如:自定义类),Python也是一样.很多时候我们会有这样的需求: 把内存中的各种数据类型的数据通过网络传送给其它机器或客户端: 把内存中的各种数据类型的数据保存到本地磁盘持久化: 2.数据格式如果要将一个系统内的数据通过网络传输给其它系统或客户端,我们通常都需要先把这些数据转化为字符串或字节串,而且需要规定一种统一的数据格式才能让数据接收端正确解析并理解这些数据的含义.XML 是早期被
详解python实现数据归一化处理的方式：（0,1）标准化

在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系"压缩"到(0,1)的范围类. 通常(0, 1)标注化处理的公式为: 即将样本点的数值减去最小值,再除以样本点数值最大与最小的差,原理公式就是这么基础. 下面看看使用python语言来编程实现吧 import numpy as np import matplotlib.pyplot as plt def noramlization(
详解Python的Flask框架中的signals信号机制

Flask 提供了信号(Signals)功能,是一种消息分发机制.类似于钩子(Hooks).使用信号功能可以降低程序的耦合,分解复杂的业务模型.例如在更新了产品数据后,可以发送一个信号.当有需要对产品数据进行处理的功能时,就可以捕获信号进行处理.比如要建立产品缓存,或是更新搜索索引等. 定义信号 Flask 信号功能使用了 Blinker 模块,所以需要先安装 Blinker 模块 pip install blinker 定义一个信号: from blinker import Namespace
详解python百行有效代码实现汉诺塔小游戏(简约版)

直接上代码: #左中右塔用一个列表存储 left = list() center = list() right = list() """ 初始化函数 """ def init(): size = input("(请友善输入整数,未写判断!)请输入层数:") #初始化塔列表,如5层左边塔放 1-3-5-7-9,中间和右边放5个-1 for i in range(1,int(size) + 1): left.append(i*2
详解Python垃圾回收机制和常量池的验证

Python的引入人类认识世界是从认识世界中的一个又一个实物开始,然后再对其用语言加以描述.例如当中国人看到苹果时,便会用中文"苹果"加以描述,而用英语的一些国家则会用"apple"加以描述. 以上说到的中文和英文都是人类认识并描述世界的一个工具,而在计算机的世界中,为了让计算机去认知世界,从而帮助人类完成更多的任务.在计算机领域中也发展了语言这个工具,从早期的机器语言到汇编语言再到现在使用范围较广的高级语言.而我们接下来要介绍的Python则属于高级语言这一分支