LZW压缩算法 C#源码

using System;
using System.IO;

namespace Gif.Components
{
 public class LZWEncoder
 {

 private static readonly int EOF = -1;

 private int imgW, imgH;
 private byte[] pixAry;
 private int initCodeSize;
 private int remaining;
 private int curPixel;

 // GIFCOMPR.C    - GIF Image compression routines
 //
 // Lempel-Ziv compression based on 'compress'. GIF modifications by
 // David Rowley (mgardi@watdcsu.waterloo.edu)

 // General DEFINEs

 static readonly int BITS = 12;

 static readonly int HSIZE = 5003; // 80% occupancy

 // GIF Image compression - modified 'compress'
 //
 // Based on: compress.c - File compression ala IEEE Computer, June 1984.
 //
 // By Authors: Spencer W. Thomas   (decvax!harpo!utah-cs!utah-gr!thomas)
 //       Jim McKie       (decvax!mcvax!jim)
 //       Steve Davies      (decvax!vax135!petsd!peora!srd)
 //       Ken Turkowski     (decvax!decwrl!turtlevax!ken)
 //       James A. Woods     (decvax!ihnp4!ames!jaw)
 //       Joe Orost       (decvax!vax135!petsd!joe)

 int n_bits; // number of bits/code
 int maxbits = BITS; // user settable max # bits/code
 int maxcode; // maximum code, given n_bits
 int maxmaxcode = 1 << BITS; // should NEVER generate this code

 int[] htab = new int[HSIZE];//这个是放hash的筒子,在这里面可以很快的找到1个key
 int[] codetab = new int[HSIZE];

 int hsize = HSIZE; // for dynamic table sizing

 int free_ent = 0; // first unused entry

 // block compression parameters -- after all codes are used up,
 // and compression rate changes, start over.
 bool clear_flg = false;

 // Algorithm: use open addressing double hashing (no chaining) on the
 // prefix code / next character combination. We do a variant of Knuth's
 // algorithm D (vol. 3, sec. 6.4) along with G. Knott's relatively-prime
 // secondary probe. Here, the modular division first probe is gives way
 // to a faster exclusive-or manipulation. Also do block compression with
 // an adaptive reset, whereby the code table is cleared when the compression
 // ratio decreases, but after the table fills. The variable-length output
 // codes are re-sized at this point, and a special CLEAR code is generated
 // for the decompressor. Late addition: construct the table according to
 // file size for noticeable speed improvement on small files. Please direct
 // questions about this implementation to ames!jaw.

 int g_init_bits;

 int ClearCode;
 int EOFCode;

 // output
 //
 // Output the given code.
 // Inputs:
 //   code:  A n_bits-bit integer. If == -1, then EOF. This assumes
 //       that n_bits =< wordsize - 1.
 // Outputs:
 //   Outputs code to the file.
 // Assumptions:
 //   Chars are 8 bits long.
 // Algorithm:
 //   Maintain a BITS character long buffer (so that 8 codes will
 // fit in it exactly). Use the VAX insv instruction to insert each
 // code in turn. When the buffer fills up empty it and start over.

 int cur_accum = 0;
 int cur_bits = 0;

 int [] masks =
 {
  0x0000,
  0x0001,
  0x0003,
  0x0007,
  0x000F,
  0x001F,
  0x003F,
  0x007F,
  0x00FF,
  0x01FF,
  0x03FF,
  0x07FF,
  0x0FFF,
  0x1FFF,
  0x3FFF,
  0x7FFF,
  0xFFFF };

 // Number of characters so far in this 'packet'
 int a_count;

 // Define the storage for the packet accumulator
 byte[] accum = new byte[256];

 //----------------------------------------------------------------------------
 public LZWEncoder(int width, int height, byte[] pixels, int color_depth)
 {
  imgW = width;
  imgH = height;
  pixAry = pixels;
  initCodeSize = Math.Max(2, color_depth);
 }

 // Add a character to the end of the current packet, and if it is 254
 // characters, flush the packet to disk.
 void Add(byte c, Stream outs)
 {
  accum[a_count++] = c;
  if (a_count >= 254)
  Flush(outs);
 }

 // Clear out the hash table

 // table clear for block compress
 void ClearTable(Stream outs)
 {
  ResetCodeTable(hsize);
  free_ent = ClearCode + 2;
  clear_flg = true;

  Output(ClearCode, outs);
 }

 // reset code table
    // 全部初始化为-1
 void ResetCodeTable(int hsize)
 {
  for (int i = 0; i < hsize; ++i)
  htab[i] = -1;
 }

 void Compress(int init_bits, Stream outs)
 {
  int fcode;
  int i /* = 0 */;
  int c;
  int ent;
  int disp;
  int hsize_reg;
  int hshift;

  // Set up the globals: g_init_bits - initial number of bits
      //原始数据的字长,在gif文件中,原始数据的字长可以为1(单色图),4(16色),和8(256色)
      //开始的时候先加上1
      //但是当原始数据长度为1的时候,开始为3
      //因此原始长度1->3,4->5,8->9

      //?为何原始数据字长为1的时候,开始长度为3呢??
      //如果+1=2,只能表示四种状态,加上clearcode和endcode就用完了。所以必须扩展到3
  g_init_bits = init_bits;

  // Set up the necessary values
      //是否需要加清除标志
      //GIF为了提高压缩率,采用的是变长的字长(VCL)。比如说原始数据是8位,那么开始先加上1位(8+1=9)
      //当标号到2^9=512的时候,超过了当前长度9所能表现的最大值,此时后面的标号就必须用10位来表示
      //以此类推,当标号到2^12的时候,因为最大为12,不能继续扩展了,需要在2^12=4096的位置上插入一个ClearCode,表示从这往后,从9位重新再来了
  clear_flg = false;
  n_bits = g_init_bits;
      //获得n位数能表述的最大值(gif图像中开始一般为3,5,9,故maxcode一般为7,31,511)
  maxcode = MaxCode(n_bits);
      //表示从这里我重新开始构造字典字典了,以前的所有标记作废,
      //开始使用新的标记。这个标号集的大小多少比较合适呢?据说理论上是越大压缩率越高(我个人感觉太大了也不见得就好),
      //不过处理的开销也呈指数增长
      //gif规定,clearcode的值为原始数据最大字长所能表达的数值+1;比如原始数据长度为8,则clearcode=1<<(9-1)=256
  ClearCode = 1 << (init_bits - 1);
      //结束标志为clearcode+1
  EOFCode = ClearCode + 1;
      //这个是解除结束的
  free_ent = ClearCode + 2;
      //清楚数量
  a_count = 0; // clear packet
      //从图像中获得下一个像素
  ent = NextPixel();

  hshift = 0;
  for (fcode = hsize; fcode < 65536; fcode *= 2)
  ++hshift;
      //设置hash码范围
  hshift = 8 - hshift; // set hash code range bound

  hsize_reg = hsize;
      //清除固定大小的hash表,用于存储标记,这个相当于字典
  ResetCodeTable(hsize_reg); // clear hash table

  Output(ClearCode, outs);

  outer_loop : while ((c = NextPixel()) != EOF)
    {
    fcode = (c << maxbits) + ent;
    i = (c << hshift) ^ ent; // xor hashing
               //嘿嘿,小样,又来了,我认识你
    if (htab[i] == fcode)
    {
     ent = codetab[i];
     continue;
    }
               //这小子,新来的
    else if (htab[i] >= 0) // non-empty slot
    {
     disp = hsize_reg - i; // secondary hash (after G. Knott)
     if (i == 0)
     disp = 1;
     do
     {
     if ((i -= disp) < 0)
      i += hsize_reg;

     if (htab[i] == fcode)
     {
      ent = codetab[i];
      goto outer_loop;
     }
     } while (htab[i] >= 0);
    }
     Output(ent, outs);
               //从这里可以看出,ent就是前缀(prefix),而当前正在处理的字符标志就是后缀(suffix)
    ent = c;
               //判断终止结束符是否超过当前位数所能表述的范围
    if (free_ent < maxmaxcode)
    {
                 //如果没有超
     codetab[i] = free_ent++; // code -> hashtable
                 //hash表里面建立相应索引
     htab[i] = fcode;
    }
    else
                 //说明超过了当前所能表述的范围,清空字典,重新再来
     ClearTable(outs);
    }
  // Put out the final code.
  Output(ent, outs);
  Output(EOFCode, outs);
 }

 //----------------------------------------------------------------------------
 public void Encode( Stream os)
 {
  os.WriteByte( Convert.ToByte( initCodeSize) ); // write "initial code size" byte
      //这个图像包含多少个像素
  remaining = imgW * imgH; // reset navigation variables
      //当前处理的像素索引
  curPixel = 0;

  Compress(initCodeSize + 1, os); // compress and write the pixel data

  os.WriteByte(0); // write block terminator
 }

 // Flush the packet to disk, and reset the accumulator
 void Flush(Stream outs)
 {
  if (a_count > 0)
  {
  outs.WriteByte( Convert.ToByte( a_count ));
  outs.Write(accum, 0, a_count);
  a_count = 0;
  }
 } 

    /// <summary>
    /// 获得n位数所能表达的最大数值
    /// </summary>
    /// <param name="n_bits">位数,一般情况下n_bits = 9</param>
    /// <returns>最大值,例如n_bits=8,则返回值就为2^8-1=255</returns>
 int MaxCode(int n_bits)
 {
  return (1 << n_bits) - 1;
 }

 //----------------------------------------------------------------------------
 // Return the next pixel from the image
 //----------------------------------------------------------------------------
    /// <summary>
    /// 从图像中获得下一个像素
    /// </summary>
    /// <returns></returns>
 private int NextPixel()
 {
      //还剩多少个像素没有处理
      //如果没有了,返回结束标志
  if (remaining == 0)
  return EOF;
      //否则处理下一个,并将未处理像素数目-1
  --remaining;
      //当前处理的像素
  int temp = curPixel + 1;
      //如果当前处理像素在像素范围之内
  if ( temp < pixAry.GetUpperBound( 0 ))
  {
        //下一个像素
  byte pix = pixAry[curPixel++];
  return pix & 0xff;
  }
  return 0xff;
 }
   /// <summary>
   /// 输出字到输出流
   /// </summary>
   /// <param name="code">要输出的字</param>
   /// <param name="outs">输出流</param>
 void Output(int code, Stream outs)
 {
      //得到当前标志位所能表示的最大标志值
  cur_accum &= masks[cur_bits];

  if (cur_bits > 0)
  cur_accum |= (code << cur_bits);
  else
        //如果标志位为0,就将当前标号为输入流
  cur_accum = code;
      //当前能标志的最大字长度(9-10-11-12-9-10。。。。。。。)
  cur_bits += n_bits;
      //如果当前最大长度大于8
  while (cur_bits >= 8)
  {
        //向流中输出一个字节
  Add((byte) (cur_accum & 0xff), outs);
        //将当前标号右移8位
  cur_accum >>= 8;
  cur_bits -= 8;
  }

  // If the next entry is going to be too big for the code size,
  // then increase it, if possible.
  if (free_ent > maxcode || clear_flg)
  {
  if (clear_flg)
  {
   maxcode = MaxCode(n_bits = g_init_bits);
   clear_flg = false;
  }
  else
  {
   ++n_bits;
   if (n_bits == maxbits)
   maxcode = maxmaxcode;
   else
   maxcode = MaxCode(n_bits);
  }
  }

  if (code == EOFCode)
  {
  // At EOF, write the rest of the buffer.
  while (cur_bits > 0)
  {
   Add((byte) (cur_accum & 0xff), outs);
   cur_accum >>= 8;
   cur_bits -= 8;
  }

  Flush(outs);
  }
 }
 }
}

以上就是本文的全部内容,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • LZW数据压缩算法的原理分析

    1.LZW的全称是什么? Lempel-Ziv-Welch (LZW). 2. LZW的简介和压缩原理是什么? LZW压缩算法是一种新颖的压缩方法,由Lemple-Ziv-Welch 三人共同创造,用他们的名字命名.它采用了一种先进的串表压缩,将每个第一次出现的串放在一个串表中,用一个数字来表示串,压缩文件只存贮数字,则不存贮串,从而使图象文件的压缩效率得到较大的提高.奇妙的是,不管是在压缩还是在解压缩的过程中都能正确的建立这个串表,压缩或解压缩完成后,这个串表又被丢弃. LZW算法中,首先建立

  • 通过Java测试几种压缩算法的性能(附测试代码下载)

    本文将会对常用的几个压缩算法的性能作一下比较.结果表明,某些算法在极端苛刻的CPU限制下仍能正常工作. 文中进行比较的算有: JDK GZIP --这是一个压缩比高的慢速算法,压缩后的数据适合长期使用.JDK中的java.util.zip.GZIPInputStream / GZIPOutputStream便是这个算法的实现. JDK deflate --这是JDK中的又一个算法(zip文件用的就是这一算法).它与gzip的不同之处在于,你可以指定算法的压缩级别,这样你可以在压缩时间和输出文件大

  • C语言字符串快速压缩算法代码

    通过键盘输入一串小写字母(a~z)组成的字符串. 请编写一个字符串压缩程序,将字符串中连续出席的重复字母进行压缩,并输出压缩后的字符串. 压缩规则: 1.仅压缩连续重复出现的字符.比如字符串"abcbc"由于无连续重复字符,压缩后的字符串还是"abcbc". 2.压缩字段的格式为"字符重复的次数+字符".例如:字符串"xxxyyyyyyz"压缩后就成为"3x6yz". 示例 输入:"cccddec

  • C# URL短地址压缩算法及短网址原理解析

    短网址应用已经在全国各大微博上开始流行了起来.例如QQ微博的url.cn,新郎的sinaurl.cn等. 我们在QQ微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://url.cn/2hytQx 为什么要这样做的,原因我想有这样几点: 微博限制字数为140字一条,那么如果我们需要发一些连接上去,但是这个连接非常的长,以至于将近要占用我们内容的一半篇幅,这肯定是不能被允许的,所以短网址应运而生了. 短网址可以在我们项目里可以很好的对开放级URL进行管理.有一部分网址可以会涵盖

  • LZW压缩算法 C#源码

    using System; using System.IO; namespace Gif.Components { public class LZWEncoder { private static readonly int EOF = -1; private int imgW, imgH; private byte[] pixAry; private int initCodeSize; private int remaining; private int curPixel; // GIFCOMP

  • Android辅助功能实现自动抢红包(附源码)

    一.描述 最近看到同事有用抢红包的软件,就想看看抢红包的具体实现是如何的,所以了解了一下,有用辅助功能实现的,所以在下面的示例中会展示一个抢红包的小Demo,附带源码抢红包源码. 二.效果图 在桌面收到红包进行抢 在聊天页面收到口令红包 三.AccessibilityService使用 创建辅助服务类,继承AccessibilityService,实现两个接口,接收系统的事件 public class MyService extends AccessibilityService { @Overr

  • Prototype源码浅析 Enumerable部分(二)

    前面each方法中掉了一个方面没有说,就是源码中的$break和$continue.这两个变量是预定义的,其作用相当于普通循环里面的break和continue语句的作用.出于效率的考虑,在某些操作中并不需要完全遍历一个集合(不局限于一个数组),所以break和continue还是很必要的. 对于一个循环来说,对比下面几种退出循环的方式: 复制代码 代码如下: var array_1 = [1,2,3]; var array_2 = ['a','b','c']; (function(){ for

  • Prototype源码浅析 Enumerable部分之each方法

    在javascript中,根本找不到Enumerable的影子,因为这一块是Prototype作者从Ruby中借鉴过来的.并且Enumerable在实际中根本没有直接应用的机会,都是混入到其他的对象中,可以说是其他对象的一个"父类"(不过只是调用了Object的extend方法,进行了方法的直接拷贝而已). 我并不熟悉Ruby,不过看Enumerable中的一些方法,倒是跟Python中的有几分相似. Enumerable其中一个最重要的方法是each,each这个方法应该都比较熟悉,

  • Prototype源码浅析 Number部分

    Number部分方法比较少,一共有8个: toColorPart: 将 Number 对象转换为具有两位数字的十六进制形式 succ: 返回当前 Number 对象的下一个值,即当前值加一 times: 采用 Ruby 的风格来封装一个标准的 [0...n] 循环 toPaddedString:将当前 Number 对象转换为字符串,如果转换后的字符串长度小于 length 指定的值,则用 0 在左边补足其余的位数 abs: 返回当前 Number 对象的绝对值. round: 返回当前 Num

  • Prototype源码浅析 String部分(四)之补充

    替换 interpolate  | sub |  scan |  truncate | gsubinterpolate : 将字符串看作一个模板,并使用 object 的属性填充它. sub : 将字符串中前指定个个与 pattern 指定的模式匹配的子串用 replacement 替换 scan : 遍历字符串中与参数 pattern 指定的模式匹配的所有子串.返回原始字符串本身. truncate : 将字符串截短为指定的长度(包含后缀部分), 并添加一个后缀. gsub :将字符串中所有与

  • Prototype源码浅析 String部分(二)

    格式 camelize | capitalize |  underscore |  dasherize  | inspect           变形 toArray |  succ  | times这里面一个有用的方法是inspect,按照参考手册的说明,他的作用是"返回该字符串针对调试的字符串表现形式(即用单引号或双引号包括起来,并使用 '\' 对特殊字符进行转义)",在Object的toJSON里面也涉及到这个方法. 既然涉及到需要转义的字符,我们自然要一份转义字符信息,下面直接

  • jq源码解析之绑在$,jQuery上面的方法(实例讲解)

    1.当我们用$符号直接调用的方法.在jQuery内部是如何封装的呢?有没有好奇心? // jQuery.extend 的方法 是绑定在 $ 上面的. jQuery.extend( { //expando 用于决定当前页面的唯一性. /\D/ 非数字.其实就是去掉小数点. expando: "jQuery" + ( version + Math.random() ).replace( /\D/g, "" ), // Assume jQuery is ready wit

  • 从源码看angular/material2 中 dialog模块的实现方法

    本文将探讨material2中popup弹窗即其Dialog模块的实现. 使用方法 引入弹窗模块 自己准备作为模板的弹窗内容组件 在需要使用的组件内注入 MatDialog 服务 调用 open 方法创建弹窗,并支持传入配置.数据,以及对关闭事件的订阅 深入源码 进入material2的源码,先从 MatDialog 的代码入手,找到这个 open 方法: open<T>( componentOrTemplateRef: ComponentType<T> | TemplateRef

  • AngularJS动态生成div的ID源码解析

    1.问题背景 给定一个数组对象,里面是div的id:循环生成div元素,并给id赋值 2.实现源码 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>AngularJS动态生成div的ID</title> <script src="http://apps.bdimg.com/libs/angular.js/1.4.6/angula

随机推荐