从gb到utf-8

2025-04-05 22:08:45

现在不少中文网站的编码都在从gb2312向utf-8编码转化。其中出现了不少问题在这里总结一下:

前提：

保证所有的文件保存的时候都是utf-8编码的，而不是ansi

具体设置：如果使用的是文本编辑器，那么在保存文件的时候就有一个编码选择（图1）将其选择成UTF-8就可以了。

如果是使用的dreamweaver那么就麻烦一点。

使用dreamweaver编辑静态文件时，那么将文件的charset标签修改成utf-8: <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />改为 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 然后选择另存为这时候dream会将文件保存为utf-8编码的

注：如果使用的是access数据库那么只需要以上两步就可以了，access本身采用utf-8编码。

asp篇

代码页设置：

asp文件的第一行： <%@LANGUAGE="VBSCRIPT" CODEPAGE="936"%> 改成： <%@LANGUAGE="VBSCRIPT" CODEPAGE="65001"%> 这也直接决定了asp 通过ado访问数据库采用的编码。
注：如果使用的是access数据库那么只需要以上两步就可以了，access本身采用utf-8编码。

如果使用了模板程序

通常的模板程序，通过fso对象来读写文件。但是这种方式没法支持utf-8,需要改成stream对象来读写文件，下面是几行关键的代码：
使用stram读文件

Set objStream = Server.CreateObject("ADODB.Stream") 
    With objStream 
    .Open 
    .Charset = "utf-8" 
    .Position = objStream.Size 
    .LoadFromFile server.mappath("sc.htm")
    wstr = .ReadText
    .Close 
    End With 
Set objStream = Nothing

使用stream写文件

Set objStream = Server.CreateObject("ADODB.Stream") 
    With objStream 
    .Open 
    .Charset = "utf-8" 
    .Position = objStream.Size 
    .WriteText=wstr 
    .SaveToFile server.mappath("wz/sc_" & classid & ".htm"),2  
    .Close 
    End With 
Set objStream = Nothing

php篇

php与access连接:

在windows主机上使用php的com扩展可以连接access数据库，在建立ADODB.Connection的时候指定代码页参数为65001

<?php $conn = new COM("ADODB.Connection",NULL,65001) or die("ADO connect failed!"); $rs = new COM("ADODB.RecordSet") or die("ADO recordset fail"); $conn->open("Provider=Microsoft.Jet.OLEDB.4.0;Data Source=data.mdb"); $rs = $conn->Execute("select * from data"); while not $rs->EOF echo $rs->Fields['title']->value; ?>

php 与mysql连接

与mysql数据库建立好连接后首先执行以下SQL查询：

<?php mysql_query("SET NAMES 'utf8'"); ?>

mysql手册关于set names 的说明 SET NAMES显示客户端发送的SQL语句中使用什么字符集。因此，SET NAMES 'cp1251'语句告诉服务器“将来从这个客户端传来的信息采用字符集cp1251”。它还为服务器发送回客户端的结果指定了字符集。（例如，如果你使用一个SELECT语句，它表示列值使用了什么字符集。）
SET NAMES 'x'语句与这三个语句等价：

mysql> SET character_set_client = x;
mysql> SET character_set_results = x;
mysql> SET character_set_connection = x;
将x设置为character_set_connection也就设置了collation_connection是x的默认校对规则。

使用adodb类：

设置'charpage' 属性为65001；

<?php require_once('adodb/adodb.inc.php'); $conn =& ADONewConnection('ado_access'); $conn->charPage ='65001'; //$conn->charPage = 65001; //$conn->debug = true; $dsn = sprintf("Provider=Microsoft.Jet.OLEDB.4.0;Data Source= %s",realpath('2data.mdb')); // $dsn = sprintf("Driver={Microsoft Access Driver (*.mdb)};Dbq=%s",realpath("data.mdb")); $conn->Connect($dsn);

php5.2 Json不能正确处理中文、GB编码的解决方法

php5.2新增的json功能是非常受欢迎的,但是经过测试发现, json_encode对中文的处理是有问题的, 1.不能处理GB编码,所有的GB编码都会替换成空字符. 2.utf8编码的中文被编码成unicode编码,相当于javascript的escape函数处理的结果. 复制代码代码如下: /* 为了能正确使用json,首先我们就应该在编码上采用utf8编码,然后再对json_encode的返回结果稍加处理就可以得到正确的结果了. 我写了一个简单的类,将这两个函数包装了一下, **/ c
php统计文件大小，以GB、MB、KB、B输出

使用filesize()函数命令实现文件大小的统计,要求:1,以GB.MB.KB.B中的一个输出:2.数量级必须大于1小于1024,并保留两位小数: 开始动工: 复制代码代码如下: $len = filesize("1.rmvb"); $i=4; while($i){ if(($out=$len/pow(1024,$i))>1.0||$i==1){ switch($i){ case 4: {printf("%.2f TB",$out);break;} cas
PHP实现字节数Byte转换为KB、MB、GB、TB的方法原创

本文实例讲述了PHP实现字节数Byte转换为KB.MB.GB.TB的方法.分享给大家供大家参考,具体如下: 前面介绍了java实现字节数Byte转换为KB.MB.GB.TB的方法 ,这里改用PHP实现这一功能.代码非常简单: <?php function getFilesize($num){ $p = 0; $format='bytes'; if($num>0 && $num<1024){ $p = 0; return number_format($num).' '.$f
c#分页读取GB文本文件实例

本文实例讲述了c#分页读取GB文本文件的方法.分享给大家供大家参考.具体如下: 一.应用场景: ① .我在做BI开发测试的时候,有可能面对source文件数GB的情况,如果使用一般的文本编辑器,则会卡死,或要等很久才能显示出来. ② .有时候,我们使用ascii(01)或ascii(02)作为行或列的分隔符,这样的临时文件用于导数据到DB,如果文件导入过程中有错误,需要查看文件的时候,普通的编辑器不支持换行,则会很恐怖. 为解决这两个需求,我使用c#完成了一个简单的winform的应用程序.
Java实现字节数B转化为KB、MB、GB的方法示例【测试可用】

本文实例讲述了Java实现字节数B转化为KB.MB.GB的方法.分享给大家供大家参考,具体如下: 在文件处理的系统中,很容易就能通过一些系统自带的方法取出其大小,问题是这个大小往往只是一个字节数B. 如果要把这个字节数转化为KB.MB.GB的最终呈现给用户,则涉及到整除与取余的算术运算. 方法如下: public static String getPrintSize(long size) { //如果字节数少于1024,则直接以B为单位,否则先除于1024,后3位因太少无意义 if (size
让php处理图片变得简单基于gb库的图片处理类附实例代码下载

这个类的设计思想借鉴于jQuery,通过连缀方法来操作图片,如: 复制代码代码如下: $image = new UsaImage(array('filepath'=>'image1.jpg')); //图片图片覆盖一张图片,第二和第三参数为,要放置的x,y位置 $image->Overlap("image99.gif", 10, 10) //以相对位置来覆盖图片,最后一个参数为缩放比例,默认为1 ->Overlap2('image00.gif',array('rig
用PHP实现将GB编码转换为UTF8

gb2utf8.php 文件如下: 复制代码代码如下: <?php Class GB2UTF8 { var $gb; // 待转换的GB2312字符串 var $utf8; // 转换后的UTF8字符串 var $CodeTable; // 转换过程中使用的GB2312代码文件数组 var $ErrorMsg; // 转换过程之中的错误讯息 function GB2UTF8($InStr="") { $this->gb=$InStr; $this->
C#把UNICODE编码转换为GB编码的实例

实例如下: public string unicodetogb(string text) { System.Text.RegularExpressions.MatchCollection mc = System.Text.RegularExpressions.Regex.Matches(text, "\\\\u([\\w]{4})"); if (mc != null && mc.Count > 0) { foreach (System.Text.RegularEx
ANSI,Unicode,BMP,UTF等编码概念实例讲解

一.前言其实从开始写Java代码以来,我遇到过无数次乱码与转码问题,比如从文本文件读入到String出现乱码,Servlet中获取HTTP请求参数出现乱码,JDBC查询到的数据乱码等等,这些问题很常见,遇到的时候随手搜一下都可以顺利解决,所以没有深入的去了解. 直到前两天同学与我谈起一个Java源文件的编码问题(这问题在最后一个实例分析),从这个问题入手拉扯出了一连串的问题,然后我们一边查资料一边讨论,直到深夜,终于在一篇博客中找到了关键性线索,解决了所有的疑惑,以前没有理解的语句都能解释清楚
python 高效去重复支持GB级别大文件的示例代码

如下所示: #coding=utf-8 import sys, re, os def getDictList(dict): regx = '''[\w\~`\!\@\#\$\%\^\&\*\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+''' with open(dict) as f: data = f.read() return re.findall(regx, data) def rmdp(dictList): return list(set(dictL