浅谈C#中的string驻留池

昨天看群里在讨论C#中的string驻留池,炒的火热,几轮下来理论一堆堆,但是在证据提供上都比较尴尬。虽然这东西很基础,但比较好的回答也不是那么容易,这篇我就以我能力范围之内跟大家分享一下

一:无处不在的池

开发这么多年,相信大家对‘池' 这个概念都耳熟能详了,连接池,线程池,对象池,还有这里的驻留池,池的存在就是为了复用为了共享,独乐乐不如众乐乐,毕竟一个字符串的生成和销毁既浪费空间又浪费时间,还不如先养着。

1. 说说现象

通常我们臆想中是这么认为的,定义几个字符串变量,堆上就会分配几个string对象,其实这底层有一种叫驻留池技术可以做到如果两个字符串内容相同,那就在堆上只分配一个string对象,然后将引用地址分配给两个字符串变量,这样就可以大大降低了内存使用,如果用代码表示就是下面这样。

    public static void Main(string[] args)
    {
      var str1 = "nihao";
      var str2 = "nihao";

      var b = string.ReferenceEquals(str1, str2);
      Console.WriteLine(b);
    }

----------- output -----------
True

2. 实现原理

那怎么做到的呢? 其实CLR在运行时调用JIT把你的MSIL代码转成机器代码的时候会发现你的元数据中定义了相同内容的字符串对象,CLR就会把你的字符串放入它私有的的内部字典中,其中key就是字符串内容,value就是分配在堆上的字符串引用地址,这个字典就是所谓的驻留池,如果不是很明白,我来画一张图。

3. windbg验证

可以用windbg看一下栈中的str1和str2是否都指向了堆上对象的地址。

~0s -> !clrstack -l 在主线程的线程栈上找到变量str1和str2

0:000> ~0s
ntdll!ZwReadFile+0x14:
00007ff8`fea4aa64 c3       ret
0:000> !clrstack -l
OS Thread Id: 0x1c1c (0)
    Child SP        IP Call Site

000000ac0b7fed00 00007ff889e608e9 *** WARNING: Unable to verify checksum for ConsoleApp2.exe
ConsoleApp2.Program.Main(System.String[]) [C:\dream\Csharp\ConsoleApp1\ConsoleApp2\Program.cs @ 30]
  LOCALS:
    0x000000ac0b7fed38 = 0x0000024a21f22d48
    0x000000ac0b7fed30 = 0x0000024a21f22d48

000000ac0b7fef48 00007ff8e9396c93 [GCFrame: 000000ac0b7fef48] 

从上面代码的 LOCALS 的 0x000000ac0b7fed38 = 0x0000024a21f22d48 0x000000ac0b7fed30 = 0x0000024a21f22d48可以看到两个局部变量的引用地址都是 0x0000024a21f22d48,说明指向的都是一个堆对象,接下来再把堆上的内容打出来。

0:000> !do 0x0000024a21f22d48
Name:    System.String
MethodTable: 00007ff8e7a959c0
EEClass:   00007ff8e7a72ec0
Size:    36(0x24) bytes
File:    C:\WINDOWS\Microsoft.Net\assembly\GAC_64\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
String:   nihao
Fields:
       MT  Field  Offset         Type VT   Attr      Value Name
00007ff8e7a985a0 4000281    8     System.Int32 1 instance        5 m_stringLength
00007ff8e7a96838 4000282    c     System.Char 1 instance        6e m_firstChar
00007ff8e7a959c0 4000286    d8    System.String 0  shared      static Empty
                 >> Domain:Value 0000024a203d41c0:NotInit <<

可以看到,果然是System.String对象,这就和我的图是相符的。

二 驻留池的验证

1. String下的驻留池验证方法

很遗憾的是水平有限,由于驻留池既不在堆中也不在栈上,目前还不知道怎么用windbg去打印CLR中驻留池字典内容,不过也可以通过 string.Intern 去验证。

    //
    // Summary:
    //   Retrieves the system's reference to the specified System.String.
    //
    // Parameters:
    //  str:
    //   A string to search for in the intern pool.
    //
    // Returns:
    //   The system's reference to str, if it is interned; otherwise, a new reference
    //   to a string with the value of str.
    //
    // Exceptions:
    //  T:System.ArgumentNullException:
    //   str is null.
    [SecuritySafeCritical]
    public static String Intern(String str);

从注释中可以看到,这个方法的意思就是:如果你定义的str在驻留池中存在,那么就返回驻留池中命中内容的堆上引用地址,如果不存在,将新字符串插入驻留池中再返回堆上引用,先上一下代码:

    public static void Main(string[] args)
    {
      var str1 = "nihao";
      var str2 = "nihao";

      //验证nihao是否在驻留池中,如果存在那么str3 和 str1,str2一样的引用
      var str3 = string.Intern("nihao");

      //验证新的字符串内容是否进入驻留池中
      var str4 = string.Intern("cnblogs");
      var str5 = string.Intern("cnblogs");

      Console.ReadLine();
    }

接下来分别验证一下str3是否也是和str1和str2一样的引用,以及str5是否存在驻留池中。

ConsoleApp2.Program.Main(System.String[]) [C:\dream\Csharp\ConsoleApp1\ConsoleApp2\Program.cs @ 37]
  LOCALS:
    0x00000047105fea58 = 0x0000018537312d48
    0x00000047105fea50 = 0x0000018537312d48
    0x00000047105fea48 = 0x0000018537312d48
    0x00000047105fea40 = 0x0000018537312d70
    0x00000047105fea38 = 0x0000018537312d70

从五个变量地址中可以看到,nihao已经被str1,str2,str3共享,cnblogs也进入了驻留池中实现了共享。

2. 运行期相同string是否进入驻留池

这里面有一个坑,前面讨论的相同字符串都是在编译期就知道的,但运行时中的相同字符串是否也会进入驻留池呢? 这是一个让人充满好奇的话题,可以试一下,在程序运行时接受IO输入内容hello,看看是否和str1,str2共享引用地址。

    public static void Main(string[] args)
    {
      var str1 = "nihao";
      var str2 = "nihao";

      var str3 = Console.ReadLine();

      Console.WriteLine("输入完成!");
      Console.ReadLine();
    }

0:000> !clrstack -l
000000f6d35fee50 00007ff889e7090d *** WARNING: Unable to verify checksum for ConsoleApp2.exe
ConsoleApp2.Program.Main(System.String[]) [C:\dream\Csharp\ConsoleApp1\ConsoleApp2\Program.cs @ 33]
  LOCALS:
    0x000000f6d35fee98 = 0x000002cb1a552d48
    0x000000f6d35fee90 = 0x000002cb1a552d48
    0x000000f6d35fee88 = 0x000002cb1a555f28
0:000> !do 0x000002cb1a555f28
Name:    System.String
MethodTable: 00007ff8e7a959c0
EEClass:   00007ff8e7a72ec0
Size:    36(0x24) bytes
File:    C:\WINDOWS\Microsoft.Net\assembly\GAC_64\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
String:   nihao
Fields:
       MT  Field  Offset         Type VT   Attr      Value Name
00007ff8e7a985a0 4000281    8     System.Int32 1 instance        5 m_stringLength
00007ff8e7a96838 4000282    c     System.Char 1 instance        6e m_firstChar
00007ff8e7a959c0 4000286    d8    System.String 0  shared      static Empty
                >> Domain:Value 000002cb18ad39f0:NotInit <<

从上面内容可以看到,从Console.ReadLine接收到的引用地址是 0x000002cb1a555f28 ,虽然是相同内容,但却没有使用驻留池,这是因为驻留池在JIT静态解析期就已经解析完成了,也就无法享受复用之优,如果还想复用的话,在 Console.ReadLine() 包一层string.Intern即可,如下所示:

    public static void Main(string[] args)
    {
      var str1 = "nihao";
      var str2 = "nihao";

      var str3 = string.Intern(Console.ReadLine());

      Console.WriteLine("输入完成!");
      Console.ReadLine();
    }

ConsoleApp2.Program.Main(System.String[]) [C:\dream\Csharp\ConsoleApp1\ConsoleApp2\Program.cs @ 33]
  LOCALS:
    0x0000008fac1fe9c8 = 0x000001ff46582d48
    0x0000008fac1fe9c0 = 0x000001ff46582d48
    0x0000008fac1fe9b8 = 0x000001ff46582d48

可以看到这个时候str1,str2,str3共享一个内存地址 0x000001ff46582d48

四: 总结

驻留池技术是个很🐮👃的东西,很好的解决字符串在堆上的重复分配问题,大大减小了堆的内存占用,但也要明白运行期的IO输入无法共享驻留池的解决方案。

好了,本篇就说到这里,希望对你有帮助!

以上就是浅谈C#中的string驻留池的详细内容,更多关于C# string驻留池的资料请关注我们其它相关文章!

(0)

相关推荐

  • C#字符串内存分配与驻留池学习分享

    刚开始学习C#的时候,就听说CLR对于String类有一种特别的内存管理机制:有时候,明明声明了两个String类的对象,但是他们偏偏却指向同一个实例.如下: 复制代码 代码如下: String s1 ="Hello";String s2 ="Hello";                       //s2和s1的实际值都是Hellobool same = (object) s1 == (object) s2;//这里比较s1.s2是否引用了同一个对象实例//所

  • c# String扩展 让你在PadLeft和PadRight时不再受单双字节问题困扰

    C# 中 PadLeft ,PadRight的用法 简单来说就是给字符串实现补位. 如:String.PadLeft(5,'0'); 表示检查字符串长度是否少于5位,若少于5位,则自动在其左侧以'0'补足. 同理PadRight是在右侧实现补位. 补位 string str = "10"; str.PadLeft(5,'0') 输出:00010 str.PadRight(5, '0') 输出:10000 因为在NET中,string的Length并不区分当前字符串包含的字符为单字节还是

  • C#中BitConverter.ToUInt16()和BitConverter.ToString()的简单使用

    下面是msdn中的一个例子,在我刚看到这里例子时,该例子有三点是我可以学到的. 第一:排列格式.如:定义一个常量变量const  string  a="{0,11}{1,10},{2,7}"; 这样一个格式用来排列三个变量的位置,第一个变量占5个位置,第二个变量占8个位置,第三个变量占10个位置.中英文都算一个位置.比如在控制台上输出 Console.WriteLine(a,"以后想找什么当另外一半","找个又帅又有车的","那买副象棋

  • 浅谈C# StringBuilder内存碎片对性能的影响

    StringBuilder内部是由多段char[]组成的半自动链表,因此频繁从中间修改StringBuilder,会将原本连续的内存分隔为多段,从而影响读取/遍历性能. 连续内存与不连续内存的性能差,可能高达1600倍. 背景 用StringBuilder的用户可能大都想用StringBuilder拼接html/json模板.组装动态SQL等正常操作.但在一些特殊场景中--如为某种编程语言写语言服务,或者写一个富文本编辑器时,StringBuilder依然也有用武之地,通过里面的Insert/R

  • C# 用什么方法将BitConverter.ToString产生字符串再转换回去

    本文介绍了C# 用什么方法将BitConverter.ToString产生字符串再转换回去,分享给大家,具体如下: byte[] bytTemp = System.Text.Encoding.Default.GetBytes("String"); string str = System.BitConverter.ToString(bytTemp); Console.WriteLine(str); string[] strSplit = str.Split('-'); byte[] by

  • C#实现String字符串转化为SQL语句中的In后接的参数详解

    实现把String字符串转化为In后可用参数代码: public string StringToList(string aa) { string bb1 = "("; if (!string.IsNullOrEmpty(aa.Trim())) { string[] bb = aa.Split(new string[] { "\r\n", ",", ";", "* " }, StringSplitOption

  • 浅谈C#中的string驻留池

    昨天看群里在讨论C#中的string驻留池,炒的火热,几轮下来理论一堆堆,但是在证据提供上都比较尴尬.虽然这东西很基础,但比较好的回答也不是那么容易,这篇我就以我能力范围之内跟大家分享一下 一:无处不在的池 开发这么多年,相信大家对'池' 这个概念都耳熟能详了,连接池,线程池,对象池,还有这里的驻留池,池的存在就是为了复用为了共享,独乐乐不如众乐乐,毕竟一个字符串的生成和销毁既浪费空间又浪费时间,还不如先养着. 1. 说说现象 通常我们臆想中是这么认为的,定义几个字符串变量,堆上就会分配几个st

  • 浅谈javascript中字符串String与数组Array

    简单点就是string是字符(串)... 而array是数组...可以放数字啊,字符啊等一系列东东!!! 上个示例: 复制代码 代码如下: var str = "liuzhanqi"; document.write(str["length"]);//等价str.l ength  var str = string.fromcharcode(72, 101, 108, 108, 111, 33); document.write(str); //各整数作为unicode编

  • 浅谈JavaScript中的String对象常用方法

    String对象提供的方法用于处理字符串及字符. 常用的一些方法: charAt(index):返回字符串中index处的字符. indexOf(searchValue,[fromIndex]):该方法在字符串中寻找第一次出现的searchValue.如果给定了fromIndex,则从字符串内该位置开始搜索,当searchValue找到后,返回该串第一个字符的位置. lastIndexOf(searchValue,[fromIndex]):从字符串的尾部向前搜索searchValue,并报告找到

  • 浅谈C++中的string 类型占几个字节

    在C语言中我们操作字符串肯定用到的是指针或者数组,这样相对来说对字符串的处理还是比较麻烦的,好在C++中提供了 string 类型的支持,让我们在处理字符串时方便了许多. 首先,我写了一段测试代码,如下所示: 复制代码 代码如下: #include <iostream>using namespace std; int main(void){ string str_test1; string str_test2 = "Hello World"; int value1, val

  • 浅谈JavaScript中的string拥有方法的原因

    引子 我们都知道,JavaScript数据类型分两大类,基本类型(或者称原始类型)和引用类型. 基本类型的值是保存在栈内存中的简单数据段,它们是按值访问的.JS中有五种基本类型:Undefined.Null.Boolean.Number和String. 引用类型的值是保存在堆内存中的对象,它的值是按引用访问的.引用类型主要有Object.Array.Function.RegExp.Date. 对象是拥有属性和方法的,所以我们看到下面这段代码一点也不奇怪. var favs=['鸡蛋','莲蓬']

  • 浅谈java中String的两种赋值方式的区别

    类似普通对象,通过new创建字符串对象.String str = new String("Hello"); 内存图如下图所示,系统会先创建一个匿名对象"Hello"存入堆内存(我们暂且叫它A),然后new关键字会在堆内存中又开辟一块新的空间,然后把"Hello"存进去,并且把地址返回给栈内存中的str, 此时A对象成为了一个垃圾对象,因为它没有被任何栈中的变量指向,会被GC自动回收. 直接赋值.如String str = "Hello&

  • 浅谈JS中String()与 .toString()的区别

    我们知道String()与 .toString()都是可以转换为字符串类型,但是String()与 .toString()的还是有区别的 1..toString()可以将所有的的数据都转换为字符串,但是要排除null 和 undefined 例如将false转为字符串类型 <script> var str = false.toString(); console.log(str, typeof str); </script> 返回的结果为 false,string 看看null 和

  • 浅谈java中String StringBuffer StringBuilder的区别

    * String类是不可变类,只要对String进行修改,都会导致新的对象生成. * StringBuffer和StringBuilder都是可变类,任何对字符串的改变都不会产生新的对象. 在实际使用时,如果经常需要对一个字符串进行修改,例如插入.删除等 * 但StringBuffer和StringBuilder有什么区别呢? StringBuffer是线程安全的,在多线程程序中是很方便使用的,但是程序的效率就会慢一点. StringBuilder不是线程安全的,在单线程中,比StringBuf

  • 浅谈Java中String的常用方法

    String中常用的方法,我以代码的形式,来说明这些常用的方法. @Test public void test1(){ //1.返回字符串的长度 String s1 = "helloworld"; System.out.println(s1.length()); //2.返回某索引处的字符 System.out.println(s1.charAt(1)); //3.判断字符串是否是空字符串 System.out.println(s1.isEmpty()); //4.将String中的所

  • 浅谈Java中方法参数传递的问题

    可以理解当我们要调用一个方法时,我们会把指定的数值,传递给方法中的参数,这样方法中的参数就拥有了这个指定的值,可以使用该值,在方法中运算了.这种传递方式,我们称为参数传递.在这里,定义方法时,参数列表中的变量,我们称为形式参数. 调用方法时,传入给方法的数值,我们称为实际参数 在Java中调用方法时,如果参数是基本类型(byte/short/int/long/float/double/char/boolean)以及String类型时,形式参数的改变不影响实际参数. 以下代码在内存中发生的动作:

随机推荐