基于C#开发中的那些编码问题(详谈)

最近一直在搞各种编码问题,略有心得,与大家分享一番。

System.Text提供了Encoding的抽象类,这个类提供字符串编码的方法。常用的编码方式主要有ASCII,Unicode,UTF8(Unicode编码的一种)。

Unicode有四种编码格式,UTF-8, UTF-16,UTF-32,UTF-7。

字符编码类,ASCIIEncoding ,UTF7Encoding,UnicodeEncoding,UTF32Encoding。

下面对ASCII和Unicode编码进行对比,废话不说,先上代码:

这是ASCII编码、解码。

static void Main(string[] args)
  {
   string temp = "Hello World!";
   Console.WriteLine("Original String:{0}", temp);

   byte[] tempBytes = System.Text.Encoding.ASCII.GetBytes(temp);
   Console.WriteLine("Bytes Array:{0}", BitConverter.ToString(tempBytes));

   BigInteger integer = new BigInteger(tempBytes);
   Console.WriteLine("BigInteger:{0}", integer);

   string res = System.Text.Encoding.ASCII.GetString(tempBytes);
   Console.WriteLine("Convert Back String:{0}", res);
   Console.ReadKey();
  }

运行结果如下:

Original String:Hello World!
Bytes Array:48-65-6C-6C-6F-20-57-6F-72-6C-64-21
BigInteger:10334410032597741434076685640
Convert Back String:Hello World!

很正常,对吧?但是,如果输入的字符串是中文(或者其他非ASCII表中的字符),情况会怎么样呢?

改变上面的程序代码

string temp = "你好,世界!";

运行结果如下:

Original String:你好,世界!
Bytes Array:3F-3F-3F-3F-3F-3F
BigInteger:69540876599103
Convert Back String:??????

如果把编码格式换成UTF8,依然重复上面的测试过程。

static void Main(string[] args)
  {
   string temp = "你好,世界!";
   Console.WriteLine("Original String:{0}", temp);

   byte[] tempBytes = System.Text.Encoding.UTF8.GetBytes(temp);
   Console.WriteLine("Bytes Array:{0}", BitConverter.ToString(tempBytes));

   BigInteger integer = new BigInteger(tempBytes);
   Console.WriteLine("BigInteger:{0}", integer);

   string res = System.Text.Encoding.UTF8.GetString(tempBytes);
   Console.WriteLine("Convert Back String:{0}", res);
   Console.ReadKey();
  }

运行结果如下:

Original String:你好,世界!
Bytes Array:E4-BD-A0-E5-A5-BD-EF-BC-8C-E4-B8-96-E7-95-8C-EF-BC-81
BigInteger:-10998968812899434720462615123889939386679836
Convert Back String:你好,世界!
Original String:Hello World!
Bytes Array:48-65-6C-6C-6F-20-57-6F-72-6C-64-21
BigInteger:10334410032597741434076685640
Convert Back String:Hello World!

通过对比,我们发现除了兼容中文和其他语言外,似乎没有太大区别。如果把编码集换成Unicode,中英文字符编码的不同就会很容易看出来了。

Original String:Hello World!
Bytes Array:48-00-65-00-6C-00-6C-00-6F-00-20-00-57-00-6F-00-72-00-6C-00-64-00-21-00
BigInteger:3160918205608148134863399242437668999277801104545742920
Convert Back String:Hello World!
Original String:你好,世界!
Bytes Array:60-4F-7D-59-0C-FF-16-4E-4C-75-01-FF
BigInteger:-307722159543719876182061216
Convert Back String:你好,世界!

如果不考虑其他情况。通过对比结果,我们发现:

1、ASCII只能处理英文和英文符号,具体请参考ASCII字符表

2、Unicode可以处理全球所有语言符号

3、Unicode处理英文时,会在每个字节后面加一个字节0x00,比ASCII多出一倍的长度;处理中文时,编码较短。

4、UTF8处理中文时比Unicode编码长,处理英文时与ASCII一样。

结论,由于现在存储介质越来越不值钱,在处理有非英文字符时,编码格式应该选择Unicode(或其子集UTF8等的任意一种编码格式),只有在确定程序只会处理英文的时候,才能选择ASCII编码。

以上这篇基于C#开发中的那些编码问题(详谈)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • C#判断字符编码的方法总结(六种方法)

    本文实例总结了C#判断字符编码的方法.分享给大家供大家参考,具体如下: 方法一 在unicode 字符串中,中文的范围是在4E00..9FFF:CJK Unified Ideographs. 通过对字符的unicode编码进行判断来确定字符是否为中文. protected bool IsChineseLetter(string input,int index) { int code = 0; int chfrom = Convert.ToInt32("4e00", 16); //范围(

  • C#中字符串编码处理

    GB2312是简体中文系统的标准编码 用"区" 跟"位"的概念表示 称之为区位码 区指代大的范围 位相当于偏移量.每个汉字占两个字节高位字节"的范围是0xB0-0xF7,"低位字节"的范围是0xA1-0xFE.它的规律好像是按拼音a到z的顺序排列的"啊"字是GB2312之中的第一个汉字,它的区位码就是1601为此我们现在用代码的方式输出一个汉字c#下是little字节序 b0跑后面去了. 复制代码 代码如下: ush

  • c#检测文本文件编码的方法

    C#如何检测文本文件的编码,本文为大家分享了示例代码,具体内容如下 using System; using System.Text; using System.Text.RegularExpressions; using System.IO; namespace KlerksSoft { public static class TextFileEncodingDetector { /* * Simple class to handle text file encoding woes (in a

  • c#字符串编码编码(encoding)使用方法示例

    Unicode有四种编码格式,UTF-8, UTF-16,UTF-32,UTF-7. 字符编码类,ASCIIEncoding ,UTF7Encoding,UnicodeEncoding,UTF32Encoding. 复制代码 代码如下: using System.Collections.Generic;using System.Text; namespace AsciiEncodingDemo{    class Program    {        static void Main(stri

  • 基于C#开发中的那些编码问题(详谈)

    最近一直在搞各种编码问题,略有心得,与大家分享一番. System.Text提供了Encoding的抽象类,这个类提供字符串编码的方法.常用的编码方式主要有ASCII,Unicode,UTF8(Unicode编码的一种). Unicode有四种编码格式,UTF-8, UTF-16,UTF-32,UTF-7. 字符编码类,ASCIIEncoding ,UTF7Encoding,UnicodeEncoding,UTF32Encoding. 下面对ASCII和Unicode编码进行对比,废话不说,先上

  • 浅谈Java开发中的安全编码问题

    1 - 输入校验 编码原则:针对各种语言本身的保留字符,做到数据与代码相分离. 1.1 SQL 注入防范 严重性高,可能性低. (1) 参数校验,拦截非法参数(推荐白名单): public String sanitizeUser(String username) { return Pattern.matches("[A-Za-z0-9_]+", username) ? username : "unauthorized user"; } (2) 使用预编译: Stri

  • 微信开发中mysql字符编码问题

    问题描述:获取code以后不能用ajax请求微信api数据.这个和ajax跨域访问有关系得到用户信息之后存到mysql,发现中文全部变成了??(乱码) 通过上网查阅了相关资料,判断问题根本原因是字符编码问题. 解决方案: 修改配置文件/etc/mysql/my.conf 在[mysql]下 复制代码 代码如下: default-character-set=utf8 在[mysqld]下 复制代码 代码如下: character-set-server=utf8 重启就失败 复制代码 代码如下: j

  • 基于vue 开发中出现警告问题去除方法

    出现这个警告问题的时候 我们可以去main.js中在头部添加这句话: Vue.config.productionTip = false 这样即可去除警告! 以上这篇基于vue 开发中出现警告问题去除方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们. 您可能感兴趣的文章: 使用vue.js开发时一些注意事项 Vue开发过程中遇到的疑惑知识点总结

  • 基于网址URL中特殊字符转义编码

    目录 网址URL中特殊字符转义编码 URL特殊字符转义,URL中一些字符的特殊含义,基本编码规则如下: 如果需要在URL中用到,需要将这些特殊字符换成相应的十六进制的值 预备知识 为什么需要Url编码 哪些字符需要编码 US-ASCII字符集中没有对应的可打印字符 保留字符 不安全字符 如何对Url中的非法字符进行编码 Javascript中的escape,encodeURI和encodeURIComponent的区别 安全字符不同 兼容性不同 对Unicode字符的编码方式不同 适用场合不同

  • 基于PHP开发中的安全防范知识详解

    PHP代码安全和XSS,SQL注入等对于各类网站的安全非常中用,尤其是UGC(User Generated Content)网站,论坛和电子商务网站,常常是XSS和SQL注入的重灾区.这里简单介绍一些基本编程要点, 相对系统安全来说,php安全防范更多要求编程人员对用户输入的各种参数能更细心. php编译过程中的安全 建议安装Suhosin补丁,必装安全补丁php.ini安全设置 复制代码 代码如下: register_global = offmagic_quotes_gpc = offdisp

  • java开发中基于JDBC连接数据库实例总结

    本文实例讲述了java开发中基于JDBC连接数据库的方法.分享给大家供大家参考,具体如下: 创建一个以JDBC连接数据库的程序,包含7个步骤: 1.加载JDBC驱动程序: 在连接数据库之前,首先要加载想要连接的数据库的驱动到JVM(Java虚拟机),这通过java.lang.Class类的静态方法forName(String  className)实现. 例如: try{ //加载MySql的驱动类 Class.forName("com.mysql.jdbc.Driver") ; }c

  • iOS开发中使用CoreLocation框架处理地理编码的方法

    一.简介 1.在移动互联网时代,移动app能解决用户的很多生活琐事,比如 (1)导航:去任意陌生的地方 (2)周边:找餐馆.找酒店.找银行.找电影院 2.在上述应用中,都用到了地图和定位功能,在iOS开发中,要想加入这2大功能,必须基于2个框架进行开发 (1)Map Kit :用于地图展示 (2)Core Location :用于地理定位 3.两个热门专业术语 (1)LBS :Location Based Service(基于定位的服务) (2)SoLoMo :Social Local Mobi

  • iOS App开发中扩展RCLabel组件进行基于HTML的文本布局

    iOS系统是一个十分注重用户体验的系统,在iOS系统中,用户交互的方案也十分多,然而要在label中的某部分字体中添加交互行为确实不容易的,如果使用其他类似Button的控件来模拟,文字的排版又将是一个解决十分困难的问题.这个问题的由来是项目中的一个界面中有一些广告位标签,而这些广告位的标签却是嵌在文本中的,当用户点击文字标签的位置时,会跳转到响应的广告页. CoreText框架和一些第三方库可以解决这个问题,但直接使用CoreText十分复杂,第三方库多注重于富文本的排版,对类似文字超链接的支

  • 解决JavaEE开发中字符编码出现乱码的问题

    网上有很多处理字符编码的解决方案,在此,我站着前人的肩膀上作自己的总结. 在我看来,出现乱码问题的解决方法无非就是在3个地方进行编码设置: 1.HTML.JSP等前端页面: 2.后台servlet中request和response对象: 3.服务器配置文件. 1.HTML.JSP等前端页面,出现编码首先看前端某个页面的Meta标签是否正确设置了编码,这个Meta标签也就是页面的头部 <%@ page language="java" import="java.util.*

随机推荐