c#压缩字符串的方法

一:背景

1. 讲故事

在我们的一个全内存项目中,需要将一家大品牌店铺小千万的trade灌入到内存中,大家知道trade中一般会有订单来源,省市区 ,当把这些字段灌进去后,你会发现他们特别侵蚀内存,因为都是字符串类型,不知道大家对内存侵蚀性是不是很清楚,我就问一个问题。

Question: 一个空字符串占用多大内存? 你知道吗?

思考之后,下面我们就一起验证下,使用windbg去托管堆一查究竟,代码如下:

 static void Main(string[] args)
 {
  string s = string.Empty;

  Console.ReadLine();
 }

0:000> !clrstack -l
OS Thread Id: 0x308c (0)
 Child SP  IP Call Site
ConsoleApp6.Program.Main(System.String[]) [C:\dream\Csharp\ConsoleApp1\ConsoleApp6\Program.cs @ 19]
 LOCALS:
 0x00000087391febd8 = 0x000002605da91420
0:000> !DumpObj /d 000002605da91420
Name: System.String
String:
Fields:
  MT Field Offset   Type VT Attr  Value Name
00007ff9eb2b85a0 4000281 8  System.Int32 1 instance  0 m_stringLength
00007ff9eb2b6838 4000282 c  System.Char 1 instance  0 m_firstChar
00007ff9eb2b59c0 4000286 d8 System.String 0 shared  static Empty
     >> Domain:Value 000002605beb2230:NotInit <<
0:000> !objsize 000002605da91420
sizeof(000002605da91420) = 32 (0x20) bytes (System.String)

从图中你可以看到,仅仅一个空字符串就要占用 32byte,如果500w个空字符串就是: 32byte x 500w = 152M,是不是不算不知道,一算吓一跳。。。 这还仅仅是一个什么都没有的空字符串哦。

2. 回归到Trade

问题也已经摆出来了,接下来回归到Trade中,为了方便演示,先模拟以文件的形式从数据库读取20w的trade。

 class Program
 {
 static void Main(string[] args)
 {
  var trades = Enumerable.Range(0, 20 * 10000).Select(m => new Trade()
  {
  TradeID = m,
  TradeFrom = File.ReadLines(Environment.CurrentDirectory + "//orderfrom.txt")
     .ElementAt(m % 4)
  }).ToList();

  GC.Collect(); //方便测试,把临时变量清掉
  Console.WriteLine("执行成功");
  Console.ReadLine();
 }
 }

 class Trade
 {
 public int TradeID { get; set; }
 public string TradeFrom { get; set; }
 }

然后用windbg去跑一下托管堆,再量一下trades的大小。

0:000> !dumpheap -stat
Statistics:
  MT Count TotalSize Class Name
00007ff9eb2b59c0 200200 7010246 System.String

0:000> !objsize 0x000001a5860629a8
sizeof(000001a5860629a8) = 16097216 (0xf59fc0) bytes (System.Collections.Generic.List`1[[ConsoleApp6.Trade, ConsoleApp6]])

从上面输出中可以看到托管堆有200200 = 20w(程序分配)+ 200(系统分配)个,然后再看size: 16097216/1024/1024= 15.35M,这就是展示的所有原始情况。

二:压缩技巧分析

1. 使用字典化处理

其实在托管堆上有20w个字符串,但你仔细观察一下会发现其实就是4种状态的重复显示,要么一淘,要么淘宝。。。这就给了我优化机会,何不在获取数据的时候构建好OrderFrom的字典,然后在trade中附增一个TradeFromID记录字典中的映射值,因为特征值少,用byte就可以了,有了这个思想,可以把代码修改如下:

 class Program
 {
 public static Dictionary<int, string> orderfromDict = new Dictionary<int, string>();

 static void Main(string[] args)
 {
  var trades = Enumerable.Range(0, 20 * 10000).Select(m =>
  {
  var tradefrom = File.ReadLines(Environment.CurrentDirectory + "//orderfrom.txt")
     .ElementAt(m % 4);

  var kv = orderfromDict.FirstOrDefault(k => k.Value == tradefrom);

  if (kv.Key == 0)
  {
   orderfromDict.Add(orderfromDict.Count + 1, tradefrom);
  }

  var trade = new Trade() { TradeID = m, TradeFromID = (byte)kv.Key };

  return trade;

  }).ToList();

  GC.Collect(); //方便测试,把临时变量清掉

  Console.WriteLine("执行成功");

  Console.ReadLine();
 }
 }

 class Trade
 {
 public int TradeID { get; set; }

 public byte TradeFromID { get; set; }

 public string TradeFrom
 {
  get
  {
  return Program.orderfromDict[TradeFromID];
  }
 }
 }

代码还是很简单的,接下来用windbg看一下空间到底压缩了多少?

0:000> !dumpheap -stat
Statistics:
  MT Count TotalSize Class Name
00007ff9eb2b59c0 204 10386 System.String

0:000> !clrstack -l
OS Thread Id: 0x2ce4 (0)
 Child SP  IP Call Site
ConsoleApp6.Program.Main(System.String[]) [C:\dream\Csharp\ConsoleApp1\ConsoleApp6\Program.cs @ 42]
 LOCALS:
 0x0000006f4d9ff078 = 0x0000016fdcf82ab8

0000006f4d9ff288 00007ff9ecd96c93 [GCFrame: 0000006f4d9ff288]
0:000> !objsize 0x0000016fdcf82ab8
sizeof(0000016fdcf82ab8) = 6897216 (0x693e40) bytes (System.Collections.Generic.List`1[[ConsoleApp6.Trade, ConsoleApp6]])

从上面的输出中可以看到,托管堆上string现在是:204 = 4(程序分配) + 200(系统分配)个,这4个就是字典中的4个哦,空间的话:6897216 /1024/1024= 6.57M,对应之前的 15.35M优化了将近60%。

虽然优化了60%,但这种优化是破坏性的优化,需要修改我的Trade结构,同时还要定义个Dictionary,而且还有不小幅度的修改业务逻辑,大家都知道线上的代码是能不改则不改,不改肯定没错,改出问题肯定是你兜着走,是吧,那问题就来了,如何最小化的修改而且还能压缩空间,有这样两全其美的事情吗???

2. 利用字符串驻留池

貌似一说出来,大家都如梦初醒,驻留池的出现就是为了解决这个问题,CLR会在内部维护了一个我刚才定义的字典机制,重复的字符串就不需要在堆上再次分配,直接存它的引用地址即可,如果你不清楚驻留池,建议看一下我这篇: https://www.jb51.net/article/189450.htm

接下来只需要在tradefrom 字段包一层 string.Intern 即可,改动不要太小,代码如下:

 static void Main(string[] args)
 {
  var trades = Enumerable.Range(0, 20 * 10000).Select(m => new Trade()
  {
  TradeID = m,
  TradeFrom = string.Intern(File.ReadLines(Environment.CurrentDirectory + "//orderfrom.txt")
     .ElementAt(m % 4)), //包一层 string.Intern
  }).ToList();

  GC.Collect(); //方便测试,把临时变量清掉
  Console.WriteLine("执行成功");
  Console.ReadLine();
 }

然后用windbg抓一下托管堆。

0:000> !dumpheap -stat
Statistics:
  MT Count TotalSize Class Name
00007ff9eb2b59c0 204 10386 System.String

0:000> !clrstack -l
OS Thread Id: 0x13f0 (0)
 Child SP  IP Call Site

ConsoleApp6.Program.Main(System.String[]) [C:\dream\Csharp\ConsoleApp1\ConsoleApp6\Program.cs @ 27]
 LOCALS:
 0x0000005e4d3ff0a8 = 0x000001f8a15129a8

0000005e4d3ff2b8 00007ff9ecd96c93 [GCFrame: 0000005e4d3ff2b8]
0:000> !objsize 0x000001f8a15129a8
sizeof(000001f8a15129a8) = 8497368 (0x81a8d8) bytes (System.Collections.Generic.List`1[[ConsoleApp6.Trade, ConsoleApp6]])

观察后发现,当用了驻留池之后空间为: 8497368 /1024/1024 =8.1M,你可能有疑问,为什么和字典化相比内存要大24%呢? 仔细观察你会发现,当用驻留池后,List<Trade> 中的TradeFrom存的是string在堆中的内存地址,在x64机器上要占用8个字节,而字典化方式内存堆上Trade是不分配TradeFrom,而是用了一个byte来替代,总体来说相当于一个trade省了7byte的空间,然后用windbg看一下。

0:000> !da -length 1 -details 000001f8b16f9b68
Name: ConsoleApp6.Trade[]
Size: 2097176(0x200018) bytes
Array: Rank 1, Number of elements 262144, Type CLASS

 Fields:
   MT Field Offset   Type VT Attr  Value Name
 00007ff9eb2b85a0 4000001 10  System.Int32 1 instance   0 <TradeID>k__BackingField
 00007ff9eb2b59c0 4000002 8  System.String 0 instance 000001f8a1516030 <TradeFrom>k__BackingField

0:000> !DumpObj /d 000001f8a1516030
Name: System.String
String: WAP

可以看到, 000001f8a1516030 就是 堆上 string=Wap的引用地址,这个地址占用了8byte空间。

再回头dump一下使用字典化方式的Trade,可以看到它是没有 <TradeFrom>k__BackingField 字段的。

0:000> !da -length 1 -details 000001ed52759ac0
Name: ConsoleApp6.Trade[]
Size: 262168(0x40018) bytes
Array: Rank 1, Number of elements 32768, Type CLASS
 Fields:
   MT Field Offset   Type VT Attr  Value Name
 00007ff9eb2b85a0 4000002 8  System.Int32 1 instance   0 <TradeID>k__BackingField
 00007ff9eb2b7d20 4000003 c  System.Byte 1 instance   0 <TradeFromID>k__BackingField

三:总结

大家可以根据自己的情况使用,使用驻留池方式是改变最小的,简单粗暴,自己构建字典化虽然最省内存,但需要修正业务逻辑,这个风险自担哦。。。

以上就是c#压缩字符串的方法的详细内容,更多关于c#压缩字符串的资料请关注我们其它相关文章!

(0)

相关推荐

  • C#自定义字符串压缩和解压缩的方法

    本文实例讲述了C#自定义字符串压缩和解压缩的方法.分享给大家供大家参考.具体如下: class ZipLib { public static string Zip(string value) { //Transform string into byte[] byte[] byteArray = new byte[value.Length]; int indexBA = 0; foreach (char item in value.ToCharArray()) { byteArray[indexB

  • C#使用GZipStream实现文件的压缩与解压

    本文实例为大家分享了C#实现文件的压缩与解压的具体代码,供大家参考,具体内容如下 需引入 System.IO.Compression; 1.C#代码(入门案例) Console.WriteLine("压缩文件..............."); using (FileStream fr = File.OpenRead("d:\\test.txt")) { using (FileStream fw = File.OpenWrite("d:\\test.zip

  • c# 文件压缩zip或将zip文件解压的方法

    1.必须Dll: ICSharpCode.SharpZipLib.dll.可从Nutget程序包中获取. 2.压缩文件 /// <summary> /// 压缩文件成zip /// </summary> /// <param name="fileZip">压缩成zip文件的绝对路径</param> /// <param name="fileName">被压缩指定文件的名字</param> ///

  • C# 使用SharpZipLib生成压缩包的实例代码

    本文通过一个简单的小例子简述SharpZipLib压缩文件的常规用法,仅供学习分享使用,如有不足之处,还请指正. 什么是SharpZipLib ? SharpZipLib是一个C#的类库,主要用来解压缩Zip,GZip,BZip2,Tar等格式,是以托管程序集的方式实现,可以方便的应用于其他的项目之中. 在工程中引用SharpZipLib 在项目中,点击项目名称右键-->管理NuGet程序包,打开NuGet包管理器窗口,进行搜索下载即可,如下图所示: SharpZipLib的关键类结构图 如下所

  • php压缩和解压缩字符串的方法

    本文实例讲述了php压缩和解压缩字符串的方法.分享给大家供大家参考.具体如下: 下面php代码通过gzcompress和gzuncompress压缩和解压缩字符串,可以设定压缩级别 $str = 'Hello I am a very very very very long string'; $compressed = gzcompress($str, 9);//压缩级别为9 $uncompressed = gzuncompress($compressed); echo $str, "\n&quo

  • c#压缩字符串的方法

    一:背景 1. 讲故事 在我们的一个全内存项目中,需要将一家大品牌店铺小千万的trade灌入到内存中,大家知道trade中一般会有订单来源,省市区 ,当把这些字段灌进去后,你会发现他们特别侵蚀内存,因为都是字符串类型,不知道大家对内存侵蚀性是不是很清楚,我就问一个问题. Question: 一个空字符串占用多大内存? 你知道吗? 思考之后,下面我们就一起验证下,使用windbg去托管堆一查究竟,代码如下: static void Main(string[] args) { string s =

  • Android实现压缩字符串的方法示例

    前言 Android端可以对字符串进行压缩,我们在进行大量简单文本传输时,可以先压缩字符串再发送.接收端接收后再解压.也可以将字符串压缩后存入数据库中,下面话不多说了,来一起看看详细的介绍吧. 使用到的类库 GZIPOutputStream 代码示例 import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.util.zip.

  • python通过zlib实现压缩与解压字符串的方法

    本文实例讲述了python通过zlib实现压缩与解压字符串的方法.分享给大家供大家参考.具体实现方法如下: 使用zlib.compress可以压缩字符串.使用zlib.decompress可以解压字符串.如下 复制代码 代码如下: #coding=utf-8 import zlib s = "hello word, 00000000000000000000000000000000" print len(s) c = zlib.compress(s) print len(c) d = 

  • php简单创建zip压缩文件的方法

    本文实例讲述了php简单创建zip压缩文件的方法.分享给大家供大家参考,具体如下: /* creates a compressed zip file */ function create_zip($files = array(),$destination = '',$overwrite = false) { //if the zip file already exists and overwrite is false, return false if(file_exists($destinati

  • php基于ob_start(ob_gzhandler)实现网页压缩功能的方法

    本文实例讲述了php基于ob_start('ob_gzhandler')实现网页压缩功能的方法.分享给大家供大家参考,具体如下: PHP生成网页后传送给浏览器显示 ,页面的打开速度除了与用户的网速有关,往往也跟页面的大小有很关系,我们可以从网 页大小着手,以提高网页的响应速度. 下面的代码是一个压缩网页的例子,我们利用ob_gzip函数,使用ob_start将输出内容压缩后放到"缓冲区"后再输出 . PHP代码 //启用压缩 if(function_exists('ob_gzip'))

  • C#格式化json字符串的方法分析

    本文实例讲述了C#格式化json字符串的方法.分享给大家供大家参考,具体如下: 将Json字符串转化成格式化表示的方法: 字符串反序列化为对象-->对象再序列化为字符串 使用Newtonsoft.Json提供的API,下载地址:http://www.newtonsoft.com/json 很多时候我们需要将json字符串以 { "status": 1, "sum": 9 } 这种方式显示,而从服务端取回来的时候往往是这样 {"status"

  • MySQL产生随机数并连接字符串的方法示例

    本文实例讲述了MySQL产生随机数并连接字符串的方法.分享给大家供大家参考,具体如下: 用到的方法: concat('a','b','c'); 连接字符串 rand(); 产生随机数 floor(); 取整数 SQL语句示例: 复制代码 代码如下: UPDATE user set reg_ip= concat(floor(RAND() * 250),'.',floor(RAND() * 250),'.',floor(RAND() * 250),'.',floor(RAND() * 250)) w

  • Python3实现将文件树中所有文件和子目录归档到tar压缩文件的方法

    本文实例讲述了Python3实现将文件树中所有文件和子目录归档到tar压缩文件的方法.分享给大家供大家参考.具体实现方法如下: # 这里将一个文件树中的所有文件和子目录归档到一个tar归档文件,然后压缩 import tarfile, os # compression表示压缩算法,gz表示gzip颜色,bz2表示bzip2压缩, # 空字符串表示不压缩 # folder_to_backup: 要归档的文件夹 # dest_folder 表示目标文件夹 def make_tar(folder_to

  • PHP简单创建压缩图的方法

    本文实例讲述了PHP简单创建压缩图的方法.分享给大家供大家参考,具体如下: <?php //创建压缩图 function _create_thumbnail($srcFile, $toW, $toH, $toFile="") { if ($toFile == "") { $toFile = $srcFile; } $info = ""; $data = getimagesize($srcFile, $info); if (!$data) r

随机推荐