python字符串Intern机制详解
字符串在 Python 中是最简单也是最常用的数据类型之一,在 CPython 中字符串的实现原理使用了一种叫做 Intern(字符串驻留)的技术来提高字符串效率。究竟什么是 intern 机制,这种机制又是通过什么方式来提高字符串效率的呢?希望这篇文章能够抛砖引玉。
先来看一段代码:
>>> s3 = "hello!" >>> s4 = "hello!" >>> s3 is s4 False >>> id(s3) 80325968L >>> id(s4) 80326048L
s3 和 s4 虽然值是一样的,但确确实实是两个不同的字符串对象,Python 会为它们俩各自分配一段内存空间,假设程序中存在大量值相同的字符串,系统就不得不为每个字符串重复地分配内存空间,显然,对系统来说是一种无谓的资源浪费。为了解决这种问题,Python 引入了 intern 机制。
再来看:
>>> s3 = intern('hello!') >>> s4 = intern('hello!') >>> s3 is s4 True >>> id(s3) 80325968L >>> id(s4) 80325968L
intern 是 Python 中的一个内建函数,该函数的作用就是对字符串进行 intern 机制处理,处理后返回字符串对象。我们发现但凡是值相同的字符串经过 intern 机制处理之后,返回的都是同一个字符串对象,这种方式在处理大数据的时候无疑能节省更多的内存空间,系统无需为相同的字符串重复分配内存,对于值相同的字符串共用一个对象即可。
其实,实现 Intern 机制的方式非常简单,就是通过维护一个字符串储蓄池,这个池子是一个字典结构,如果字符串已经存在于池子中了就不再去创建新的字符串,直接返回之前创建好的字符串对象,如果之前还没有加入到该池子中,则先构造一个字符串对象,并把这个对象加入到池子中去,方便下一次获取,用伪代码就可以描述为:
intern_pool = {} def intern(s): if s in intern_pool: return intern_pool[s] else: obj = PyStringObject(s) intern_pool[s] = obj return obj
在主流面向对象的编程语言中intern 机制对于处理字符串已经成为一种标配,通过 intern 机制可以提高字符串的处理效率,当然,解释器内部很对 intern 机制的使用策略是有考究的,有些场景会自动使用 intern ,有些地方需要通过手动方式才能启动。比如:
>>> s1 = "hello" >>> s2 = "hello" >>> s1 is s2 True >>> id(s1) 72320704L >>> id(s2) 72320704L
这段代码就是 Python自动使用了intern机制的结果。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。
相关推荐
-
Python中常用的8种字符串操作方法
拼接字符串 使用"+"可以对多个字符串进行拼接 语法格式: str1 + str2 >>> str1 = "aaa" >>> str2 = "bbb" >>> print(str1 + str2) aaabbb 需要注意的是字符串不允许直接与其他类型进行拼接,例如 >>> num = 100 >>> str1 = "hello" >
-
python2和python3在处理字符串上的区别详解
python2和python3对于字符串的处理有很大的区别 熟悉了python2的写法用python3时真的会遇到很多问题啊-- 区别 python2中有一种类型叫做unicode型,例 type(u"a") => str型 type("a".decode('utf8')) => unicode型 两者返回的类型都是unicode型 而在python3中,所有的字符串都是unicode,所以就不存在单独的unicode型,全部都是字符串型 type(u&
-
Python实现将字符串的首字母变为大写,其余都变为小写的方法
利用map()函数,把用户输入的不规范的英文名字,变为首字母大写,其他小写的规范名字. 思路:使用capitalize()函数将字符串的首字母转为大写,其余变为小写 L1 = ['AdmIn','anny','LUCY','sandY','wILl'] def normallize(name): return name.capitalize() L2 = list(map(normallize,L1)) print(L2) 打印如下: ['Admin', 'Anny', 'Lucy', 'San
-
python字符串替换第一个字符串的方法
Python 截取字符串使用 变量[头下标:尾下标],就可以截取相应的字符串,其中下标是从0开始算起,可以是正数或负数,下标可以为空表示取到头或尾. # 例1:字符串截取 str = '12345678' print str[0:1] >> 1 # 输出str位置0开始到位置1以前的字符 print str[1:6] >> 23456 # 输出str位置1开始到位置6以前的字符 num = 18 str = '0000' + str(num) # 合并字符串 print str[-
-
Python字符串匹配之6种方法的使用详解
1. re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. import re line="this hdr-biz 123 model server 456" pattern=r"123" matchObj = re.match( pattern, line) 2. re.search 扫描整个字符串并返回第一个成功的匹配. import re line="this hdr-biz model
-
python3.4 将16进制转成字符串的实例
将socket收到的16进制转成字符串 def hex_to_str(b): s = '' for i in b: s += '{0:0>2}'.format(str(hex(i))[2:]) return(s) 以上这篇python3.4 将16进制转成字符串的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们.
-
python字符串Intern机制详解
字符串在 Python 中是最简单也是最常用的数据类型之一,在 CPython 中字符串的实现原理使用了一种叫做 Intern(字符串驻留)的技术来提高字符串效率.究竟什么是 intern 机制,这种机制又是通过什么方式来提高字符串效率的呢?希望这篇文章能够抛砖引玉. 先来看一段代码: >>> s3 = "hello!" >>> s4 = "hello!" >>> s3 is s4 False >>&
-
Python字符串处理实例详解
Python字符串处理实例详解 一.拆分含有多种分隔符的字符串 1.如何拆分含有多种分隔符的字符串 问题: 我们要把某个字符串依据分隔符号拆分不同的字段,该字符串包含多种不同的分隔符,例如: s = "ab;cd|efg|hi,jkl|mn\topq;rst,uvw\txyz" 其中;,|,\t 都是分隔符号,如何处理? 方法一: 连续使用str.split()方法,每次处理一种分隔符号 s = "ab;cd|efg|hi,jkl|mn\topq;rst,uvw\txyz&q
-
python的广播机制详解
目录 为什么会有广播机制 在矩阵或向量相关运算中的广播机制 1.一般的运算 2.一个矩阵一个向量的情况 3.两个向量 4.矩阵乘法的广播机制 总结 为什么会有广播机制 python语言在设计的时候,就就考虑到用于两个运算的矩阵或向量维度不匹配的问题.例如,我们有矩阵A,让矩阵每个元素都加1,直接使用A+1,就可以完成目的.这其中就用到了python的广播机制,所以在很多python的第三方库中,都支持广播机制,例如Numpy.pytorch. 在矩阵或向量相关运算中的广播机制 1.一般的运算 假
-
Python中的 is 和 == 以及字符串驻留机制详解
is 和 == 先了解下官方文档中关于 is 和 == 的概念.is 表示的是对象标示符(object identity),而 == 表示的是相等(equality):is 的作用是用来检查对象的标示符是否一致,也就是比较两个对象在内存中的地址是否一样(相当于检查 id(a) == id(b)),而 == 是用来检查两个对象引用的值是否相等(相当于检查 a.eq(b)):这点和Java有点类似,只不过Java中是用 == 来比较两个对象在内存中的地址,用 equals() 来检查两者之间的值是否
-
python之import机制详解
本文详述了Python的import机制,对于理解Python的运行机制很有帮助! 1.标准import: Python中所有加载到内存的模块都放在 sys.modules .当 import 一个模块时首先会在这个列表中查找是否已经加载了此模块,如果加载了则只是将模块的名字加入到正在调用 import 的模块的 Local 名字空间中.如果没有加载则从 sys.path 目录中按照模块名称查找模块文件,模块可以是py.pyc.pyd,找到后将模块载入内存,并加到 sys.modules 中,并
-
关于python字符串方法分类详解
python字符串方法分类,字符串是经常可以看到的一个数据储存类型,我们要进行字符的数理,就需要用各种的方法,这里有许多方法,我给大家介绍比较常见的重要的方法,比如填充.删减.变形.分切.替代和查找. 打开sublime text 3编辑器,新建一个PY文件. test = "hey" test_new = test.center(10, "$") print(test_new) 填充类的有center()这个方法,可以指定字符,然后往两边填充,第一个参数是总的字符
-
python 字符串常用函数详解
字符串常用函数: 声明变量 str="Hello World" find() 检测字符串是否包含,返回该字符串位置,如果不包含返回-1 str.find("Hello") # 返回值:0 str.find("W") # 返回值:6, 这里需要注意下:空格也是一个字符.W前面有个空格,所以W位置是6 str.find("R") # 返回值:-1,并不包含在Hello World中,如果不包含返回-1 index() 检测字符串是
-
python 字符串常用方法汇总详解
1.字符串大小写转 value = "wangdianchao" # 转换为大写 big_value = value.upper() print(big_value) # 转换为小写 small_value = big_value.lower() print(small_value) 2.判断输入字符串是否可以转换为数字 num = input("输入内容:") # 判断输入字符串是否可以转换为数字 flag = num.isdigit() print(flag)
-
Python retrying 重试机制详解
目录 循环加判断 retrying 总结 我们在程序开发中,经常会需要请求一些外部的接口资源,而且我们不能保证每次请求一定会成功,所以这些涉及到网络请求的代码片段就需要加上重试机制.下面来说一下Python中的重试方法. 循环加判断 最简单的重试方式就是在需要进行重试的代码片段上加一个循环,程序内捕获异常,如果执行成功就退出循环,执行失败就就重复执行相关代码,例如: import requests def req_with_retry(url): retry_max = 10 # 最大重试次数为
-
Python 垃圾回收机制详解
目录 1. 引用计数 2. 标记-清除 3. 分代回收 4. 其他 4.1 JNI(Java Native Interface) 总结 Python 的GC模块主要运用了引用计数来跟踪和回收垃圾:通过"标记-清除"解决容器对象可能产生的循环引用问题:通过分代回收以空间换时间进一步提高垃圾回收的效率. 也即采用"引用计数"为主(实时性,一旦没有引用,内存就直接释放了),"标记-清除"与"分代收集"两种机制为辅的策略.
随机推荐
- jQuery实现的事件绑定功能基本示例
- 什么是ASP?如何打开ASP文件
- SQL server 2005的表分区
- Jquery Ajax学习实例6 向WebService发出请求,返回DataSet(XML) 异步调用
- Extjs中DisplayField的日期或者数字格式化扩展
- 如何禁止指定指定IP访问我的计算机
- 正则表达式查找相似单词的方法
- ASP.NET中ImageButton图片按钮控件的使用
- C#编写Windows服务实例代码
- JavaScript 参数中的数组展开 [译]
- php单例模式实现方法分析
- 跟老齐学Python之坑爹的字符编码
- ajax 同步和异步XMLHTTP代码分析
- C++实现自底向上的归并排序算法
- IIS6 和Tomcat5 的整合
- PHP对象相互引用的内存溢出实例分析
- jQuery Html控件基本操作(日常收集整理)
- Javascript动画的实现原理浅析
- java版简单的猜数字游戏实例代码
- Java8新特性之泛型的目标类型推断_动力节点Java学院整理