c#基础系列之System.String的深入理解

前言

几乎任何一个项目都离不开对字符串的处理,在C和C++编程中,许多程序的漏洞都是由于字符串缓冲区溢出造成的。为了避免在C#中出现类似的问题,同时也为了使用更方便,C#中专门设置了两个字符串处理类:String类和StringBuilder类。

本文主要给大家介绍了关于c#基础系列之string的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧

扩展阅读:深入理解值类型和引用类型

基本概念

string(严格来说应该是System.String) 类型是我们日常coding中用的最多的类型之一。那什么是String呢?^ ~ ^

String是一个不可变的连续16位的Unicode代码值的集合,它直接派生自System.Object类型。

与之对应的还有一个不常用的安全字符串类型System.Security.SecureString,它会在非托管的内存上分配,以便避开GC的黑手。主要用于安全性特高的场景。[具体可查看msdn这里不展开讨论了。=>msdn查看详情

特性

  • 由于String类型直接派生于Object,所以它是引用类型,那就意味着String对象的实例总是存在于堆上。
  • String具有不变性,也就是说一旦初始化,它的值将永远不变。
  • String类型是封闭的,换言之,你的任何类型不能继承String。
  • 定义字符串实例的关键字string只是System.String 类型的一个映射。

注意事项

  • 关于字符串中的回车符和换行符一般大家喜欢直接硬编码‘\r\n',但是不建议这么做,一旦程序迁移到其他平台,将出现错误。相反,推荐使用System.Environment类的NewLine属性来生成回车符和换行符,可以跨平台使用的。
  • 常量字符串的拼接和非常量字符串在CLR中行为是不一样的。具体请查看性能部分。
  • 字符串之前加@符号会改变编译器的行为,如果加了@符号,编译器会把String中的转义字符视为正常字符来显示。也就是我定义的什么内容就是什么内容,主要在使用文件路径或者目录字符串中使用。以下两个String内容的输出将完全一致。
  static void Main(string[] args)
   {
    string a = "c:\\temp\\1";
    string b = @"c:\temp\1";
    Console.WriteLine(a);
    Console.WriteLine(b);
    Console.Read();
   } 

性能

  • c#的编译器直接支持String类型,并将定义的常量字符串在编译期直接存放到模块的元数据中。然后会在运行时直接加载。这也说明String类型的常量在运行时是有特殊待遇的。
  • 由于字符串的不变性,也就意味着多个线程同时操作该字符串不会有任何线程安全的问题。这在某些共享配置的设计中很有用。
  • 如果程序经常会对比重复度比较高的字符串,这会造成性能上的影响,因为对比字符串是要经过几个步骤的。为此CLR引入了一个字符串重用的技术,学名叫做‘字符串留用'。原理就是:CLR会在初始化的时候创建一个内部的哈希表,key是字符串,value就是留用字符串在托管堆上的引用。
    String类型提供了两个静态方法来操作这个哈希表:

String.Intern

String.IsInterned

具体请查看msdn(https://msdn.microsoft.com/zh-cn/library/system.string.isinterned(v=vs.110).aspx)

但是c#编译器默认是不开启字符串留用功能的,因为如果程序大量把字符串留用,应用程序总体性能可能会变得更慢。(微软也是挺纠结的,程序员TMD的更纠结)

如果我们的程序中有很多个一模一样值的常量字符串, c#的编译器会在编译期间把这些字符串合并为一个并写入模块的元数据中,然后修改所有引用该字符串的代码。这也是一种字符串重用技术,学名‘字符串池'。这意味着什么呢?这意味着所有值相同的常量字符串其实引用的是同一个内存地址的实例,在相同值非常多的情况下能显著提高性能和节省大量内存。

string s1 = "hello 大菜";
string s2 = "hello 大菜";
unsafe
{
 fixed (char* p = s1)
 {
  Console.WriteLine("字符串地址= 0x{0:x}", (int)p);

 }
 fixed (char* p = s2)
 {
  Console.WriteLine("字符串地址= 0x{0:x}", (int)p);

 }
} 

输出结果:

字符串地址= 0x80002d84
字符串地址= 0x80002d84

可见实例的值只分配了一次,但是有一点需要说明,字符串仅用于编译期能确定值的字符串,也就是常量字符串。如果我的程序修改为:

args = new string[] { "dfasfdsa"};
string s1 = "hello 大菜"+ args[0];
string s2 = "hello 大菜"+args[0];
unsafe
{
 fixed (char* p = s1)
 {
  Console.WriteLine("字符串地址= 0x{0:x}", (int)p);

 }
 fixed (char* p = s2)
 {
  Console.WriteLine("字符串地址= 0x{0:x}", (int)p);

 }
}

运行结果:

字符串地址= 0x2e3c
字符串地址= 0x2e7c

平时coding避免不了字符串的连接,如果一个频繁拼接字符串的场景下使用‘+',对程序整体性能和GC影响还是挺大的,为此c#推出了 StringBuilder类型来优化字符串的拼接。相对于String类型的不变性来说,StringBuilder更像是可变的字符串类型。它的底层数据结构是一个Char的数组。另外还有容量(默认为16),最大容量(默认为int.MaxValue)等属性。StringBuilder的优势在于字符总数未超过‘容量'的时候,底层数组不会重新分配,这和String每次都重新分配形成最大的对比。如果字符总数超过‘容量',StringBuilder会自动倍增容量属性,用一个新的数组来容纳原来的值,原来数组将会被GC回收。可见如果StringBuilder频繁的动态扩容也会损害性能,但是影响可能会比String小的多。 合理的设置StringBuilder初始容量对程序有很大帮助。测试如下:

int count = 100000;
Stopwatch sw = new Stopwatch();
sw.Start();
string s = "";
for (int i = 0; i < count; i++)
 {
  s += i.ToString();
 }
sw.Stop();
Console.WriteLine(sw.ElapsedMilliseconds);

运行结果:

14221

查看GC的情况

Gc执行的是如此频繁。 性能是可想而知的。接着看一下StringBuilder

int count = 100000;
Stopwatch sw = new Stopwatch();
sw.Start();
StringBuilder sb = new StringBuilder();//听说程序员都这样命名StringBuilder
for (int i = 0; i < count; i++)
 {
 sb.Append(i.ToString());
}
sw.Stop();
Console.WriteLine(sw.ElapsedMilliseconds);

运行结果:

12

GC情况:

几乎没有GC(可能还未达到触发GC的临界点),如果我合理初始化了StringBuilder 容量,生产环境中结果差距将会更大。 呵呵 ^ ~ ^

其他

关于字符串留用和字符串池

一个程序集加载的时候,CLR默认会留用该程序集元数据中描述的所有文本常量字符串。由于可能会出现额外的哈希表查找造成的性能下降的现象,所以现在可以禁用这个特性了。

coding中我们平常比较两个字符串是否相等,那这个过程是怎么样的呢?

  • 首先判断字符的数量是否相等。
  • CLR逐个对比字符最终确定是否相等。

这个场景是适合字符串留用的。因为不再需要经过以上的两个步骤,直接哈希表拿到value就可以对比确定了。

关于字符串拼接性能

基于以上所有知识,那是不是StringBuilder拼接字符串性能永远都高于符号‘+'呢?答案是否定的。

 static void Main(string[] args)
  {
   int count = 10000000;
   Stopwatch sw = new Stopwatch();
   sw.Start();
   string str1 = "str1", str2 = "str2", str3 = "str3";
   for (int i = 0; i < count; i++)
   {
    string s = str1 + str2 + str3;
   }
   sw.Stop();
   Console.WriteLine($@"+用时: {sw.ElapsedMilliseconds}" );

   sw.Reset();
   sw.Start();
   for (int i = 0; i < count; i++)
   {
    StringBuilder sb = new StringBuilder();//听说程序员都这样命名StringBuilder
    sb.Append(str1).Append(str2).Append(str3);
   }
   sw.Stop();
   Console.WriteLine($@"StringBuilder.Append 用时: {sw.ElapsedMilliseconds}");

   Console.Read();
  }

运行结果:

+用时: 553
StringBuilder.Append 用时: 975

符号‘+'最终会调用String.Concat方法,当同时连接几个字符串时,并不是每连接一个都分配一次内存,而是把几个字符都作为 String.Concat方法的参数,只分配一次内存。所以在拼接的字符串个数比较少的场景下,String.Concat 性能是略高于StringBuilder.Append。string.Format 方法最终调用的是StringBuilder,这里不做展开讨论了,请自行参考其他文档。

所以万事都不是绝对的!!每个事物都有适合自己的场景,我们都需要自己去探索。(程序员太累了)

以上都是非生产环境测试结果,如果错误,请及时指正

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对我们的支持。

(0)

相关推荐

  • C#环形缓冲区(队列)完全实现

    公司项目中经常设计到串口通信,TCP通信,而且大多都是实时的大数据的传输,然后大家都知道协议通讯肯定涉及到什么,封包.拆包.粘包.校验--什么鬼的概念一大堆,说简单点儿就是要一个高效率可复用的缓存区.按照码农的惯性思维就是去百度.谷歌搜索看有没有现成的东西可以直接拿来用,然而我并没有找到,好吧不是很难的东西自己实现一个呗.开扯-- 为什么要用环形队列? 环形队列是在实际编程极为有用的数据结构,它有如下特点: 它是一个首尾相连的FIFO的数据结构,采用数组的线性空间,数据组织简单.能很快知道队列是

  • C#栈和队列的简介,算法与应用简单实例

    堆栈(Stack) 代表了一个后进先出的对象集合.当您需要对各项进行后进先出的访问时,则使用堆栈.当您在列表中添加一项,称为推入元素,当您从列表中移除一项时,称为弹出元素. 常用方法: 1 public virtual void Clear(); 从 Stack 中移除所有的元素. 2 public virtual bool Contains( object obj ); 判断某个元素是否在 Stack 中. 3 public virtual object Peek(); 返回在 Stack 的

  • C#温故而知新系列教程之闭包

    闭包的由来 形成闭包有一些值得总结的非必要条件: 1.嵌套定义的函数. 2.匿名函数. 3.将函数作为参数或者返回值. 4.在.NET中,可以通过匿名委托形成闭包:函数可以作为参数传递,也可以作为返回值返回,或者作为函数变量.而在.NET中,这都可以通过委托来实现.这些是实现闭包的前提. 要说闭包的由来就不得不先说下函数式编程了.近几年函数式编程也是比较火热,我们先来看看函数式编程的一些基本的特性这个有助于我们理解闭包的由来.  函数式编程 函数式编程是一种编程模型,他将计算机运算看做是数学中函

  • c#队列Queue学习示例分享

    集合>队列Queue>创建队列 System.Collections.Queue类提供了四种重载构造函数. 复制代码 代码如下: using System.Collections.Generic;using System.Linq;using System.Text;using System.Collections; namespace ConsoleApplication1{    class Program    {        static void Main(string[] arg

  • C#使用队列(Queue)解决简单的并发问题

    本文通过实例,更具体的讲解了队列,队列(Queue)代表了一个先进先出的对象集合.当您需要对各项进行先进先出的访问时,则使用队列.当您在列表中添加一项,称为入队,当您从列表中移除一项时,称为出队. 有一个场景:一个抢购的项目,假设有5件商品,谁先抢到谁可以买,但是如果此时此刻(这里的此时此刻假设是相同的时间),有100人去抢这个商品,如果使用平时的方法会出现什么情况呢?你懂的,这里所说是就是有关并发的问题. 平时我们去超市购物去结账的时候就是排队,这里我们先让抢购人排好队,按时间,谁先点击的抢购

  • C#实现顺序队列和链队列的代码实例

    和上篇栈的实现基本是一个思路: 废话不多说,直接写代码吧 //自定义队列接口 namespace 队列 { interface IQueue<T> { int Count { get; } int GetLength(); bool IsEmpty(); void Clear(); void Enqueue(T item); T Dequeue(); T Peek(); } } //顺序队列的实现类 namespace 队列 { class SeqQueue<T> : IQueue

  • C#实现斐波那契数列的几种方法整理

    什么是斐波那契数列?经典数学问题之一:斐波那契数列,又称黄金分割数列,指的是这样一个数列:1.1.2.3.5.8.13.21.--想必看到这个数列大家很容易的就推算出来后面好几项的值,那么到底有什么规律,简单说,就是前两项的和是第三项的值,用递归算法计第50位多少. 这个数列从第3项开始,每一项都等于前两项之和. 斐波那契数列:{1,1,2,3,5,8,13,21...} 递归算法,耗时最长的算法,效率很低. public static long CalcA(int n) { if (n <=

  • C#数据结构之队列(Quene)实例详解

    本文实例讲述了C#数据结构之队列(Quene).分享给大家供大家参考,具体如下: 队列(Quene)的特征就是"先进先出",队列把所有操作限制在"只能在线性结构的两端"进行,更具体一点:添加元素必须在线性表尾部进行,而删除元素只能在线性表头部进行. 先抽象接口IQuene<T> namespace 栈与队列 { public interface IQuene<T> { /// <summary> /// 取得队列实际元素的个数 /

  • C#使用foreach语句遍历队列(Queue)的方法

    本文实例讲述了C#使用foreach语句遍历队列(Queue)的方法.分享给大家供大家参考.具体如下: using System; using System.Collections; public class QueuesW3 { static void Main(string[] args) { Queue a = new Queue(10); int x = 0; a.Enqueue(x); x++; a.Enqueue(x); foreach (int y in a) { Console.

  • C#数据结构与算法揭秘五 栈和队列

    这节我们讨论了两种好玩的数据结构,栈和队列. 老样子,什么是栈, 所谓的栈是栈(Stack)是操作限定在表的尾端进行的线性表.表尾由于要进行插入.删除等操作,所以,它具有特殊的含义,把表尾称为栈顶(Top) ,另一端是固定的,叫栈底(Bottom) .当栈中没有数据元素时叫空栈(Empty Stack).这个类似于送饭的饭盒子,上层放的是红烧肉,中层放的水煮鱼,下层放的鸡腿.你要把这些菜取出来,这就引出来了栈的特点先进后出(First in last out).   具体叙述,加下图. 栈通常记

  • c#基础系列之ref和out的深入理解

    扩展阅读 c#基础系列1---深入理解 值类型和引用类型 c#基础系列2---深入理解 String 引言 在上篇文章深入理解值类型和引用类型的时候,有的小伙伴就推荐说一说ref和out 关键字,昨天晚上彻夜难眠在想是否要谈一下呢,因为可谈的不是太多,也可能是我理解的不够深刻. C#有两种参数传递方式:传值和引用,传值就是变量的值,而引用则是传递的变量的地址: 本文中说的Ref和Out都是引用传递,Ref的重点是把值传给调用方法,Out则是得到调用方法的值,类似于有返回类型的方法返回的值: 在使

  • C#队列Queue用法实例分析

    本文实例分析了C#队列Queue用法.分享给大家供大家参考.具体分析如下: 队列(Queue)在程序设计中扮演着重要的角色,因为它可以模拟队列的数据操作.例如,排队买票就是一个队列操作,后来的人排在后面,先来的人排在前面,并且买票请求先被处理.为了模拟队列的操作,Queue在ArrayList的基础上加入了以下限制 1.元素采用先入先出机制(FIFO,First In First Out),即先进入队列的元素必须先离开队列.最先进入的元素称为队头元素. 元素只能被添加到队尾(称为入队),不允许在

  • C#队列Queue多线程用法实例

    本文实例讲述了C#队列Queue多线程用法.分享给大家供大家参考.具体分析如下: 这里展示一个例子,供学习使用: private void button_测试Queue结合多线程_Click(object sender, EventArgs e) { Console.WriteLine("初始化队列"); queue = new Queue<string>(); string[] cars = new string[]{"宝马","奔驰&quo

  • C#类继承中构造函数的执行序列示例详解

    前言 大家都知道类的继承规则: 1.派生类自动包含基类的所有成员.但对于基类的私有成员,派生类虽然继承了,但是不能在派生类中访问. 2.所有的类都是按照继承链从顶层基类开始向下顺序构造.最顶层的基类是System.Object类,所有的类都隐式派生于它.只要记住这条规则,就能理解派生类在实例化时对构造函数的调用过程. 不知道大家在使用继承的过程中有木有遇到过调用构造函数时没有按照我们预期的那样执行呢?一般情况下,出现这样的问题往往是因为类继承结构中的某个基类没有被正确实例化,或者没有正确给基类构

  • c#基础系列之值类型和引用类型的深入理解

    前言 不知不觉已经踏入坑已10余年之多,对于c#多多少少有一点自己的认识,写出来渴求同类抨击,对自己也算是个十年之痒的一个总结. C#把数据类型分为值类型和引用类型 1.1:从概念上来看,其区别是值类型直接存储值,而引用类型存储对值的引用. 1.2:这两种类型在内存的不同地方,值类型存储在堆栈中,而引用类型存储在托管对上.存储位置的不同会有不同的影响. 下面话不多说了,来一起看看详细的介绍吧 基本概念 CLR支持两种类型:值类型和引用类型. 面试过很多5年左右的同学,有很多连值类型和引用类型的基

  • C#环形队列的实现方法详解

    一.环形队列是什么 队列是一种常用的数据结构,这种结构保证了数据是按照"先进先出"的原则进行操作的,即最先进去的元素也是最先出来的元素.环形队列是一种特殊的队列结构,保证了元素也是先进先出的,但与一般队列的区别是,他们是环形的,即队列头部的上个元素是队列尾部,通常是容纳元素数固定的一个闭环. 二.环形队列的优点 1.保证元素是先进先出的 是由队列的性质保证的,在环形队列中通过对队列的顺序访问保证. 2.元素空间可以重复利用 因为一般的环形队列都是一个元素数固定的一个闭环,可以在环形队列

  • C#多线程处理多个队列数据的方法

    本文实例讲述了C#多线程处理多个队列数据的方法.分享给大家供大家参考.具体实现方法如下: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading; using System.Collections; using System.Windows.Forms; namespace ThredProcessQueue { //用于顯示狀態的代理

随机推荐