将编码从GB2312转成UTF-8的方法汇总(从前台、程序、数据库)

一个网站如果需要国际化,就需要将编码从GB2312转成UTF-8,其中有很多的问题需要注意,如果没有转换彻底,将会有很多的编码问题出现!
主要有五个方面:
一..HTML页面转UTF-8编码问题
二.PHP页面转UTF-8编码问题
三.MYSQL数据库使用UTF-8编码的问题
四.JS相关的UTF-8编码问题
五.FLASH相关的UTF-8编码问题

一.HTML页面转UTF-8编码问题

1.在后,之间有中文字符的话,显示的标题有可能是乱码!
2.html文件编码问题:
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,如果是ANSI,需要将编码改成:UTF-8。
3.HTML文件头BOM问题:
将文件从其他的编码转换成UTF-8编码时,有时候会在文件的最开始加上一个BOM标签,在个BOM标签可能会导致浏览器在显示中文的时候出现乱码。
删除这个BOM标签的方法:
1.可以用Dreamweaver打开文件,并重新保存,即可以去除BOM标签!
2.可以用EditPlus打开文件,并在菜单“首选项”->“文件”->"UTF-8标识",设置为:“总是删除签名”,然后保存文件,即可以去除BOM标签!
4.WEB服务器UTF-8编码问题:
如果你按以上所列的步骤做了,还是有中文乱码问题,请检查你的所使用的WEB服务器的编码问题
如果你使用的是Apache,请将配置文件里的:charset 设成:utf-8(这里仅列出方法,具体格式请参考apache的配置文件)。
如果你使用的是Nginx,请将nginx.conf里的:charset 设成 utf-8,具体找到 "charset gb2312;"或者类似的语句,改成:"charset utf-8;”。

二.PHP页面转UTF-8编码问题

1.在代码开始出加入一行:
header("Content-Type: text/html;charset=utf-8");
2.PHP文件编码问题
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,如果是ANSI,需要将编码改成:UTF-8。
3.PHP文件头BOM问题:
PHP文件一定不可以有BOM标签,否则,会出现session不能使用的情况,并有类似的提示:
Warning: session_start() [function.session-start]: Cannot send session cache limiter - headers already sent
这是因为,在执行session_start() 的时候,整个页面不能有输出,但是当由于前PHP页面存在BOM标签,PHP把这个BOM标签当成是输出了,所以就出错了!
所以PHP页面一定要删除BOM标签
删除这个BOM标签的方法:
1.可以用Dreamweaver打开文件,并重新保存,即可以去除BOM标签!
2.可以用EditPlus打开文件,并在菜单“首选项”->“文件”->"UTF-8标识",设置为:“总是删除签名”,然后保存文件,即可以去除BOM标签!
4.PHP以附件形式保存文件的时候,UTF-8编码问题:
PHP以附件形式保存文件,文件名必须是GB2312编码,否则,如果文件名中有中文的话,将是显示乱码:
如果你的PHP本身是UTF-8编码格式的文件,需要将文件名变量由UTF-8转成GB2312:
iconv("UTF-8", "GB2312", "$filename");
5.截断显示文章标题时,出现乱码或者“?”问号的问题:
一般文章标题很长的时候,会显示一部分标题,会对文章标题进行截断,由于一个UTF-8编码格式的中文字符会占用3个字符宽度,截取标题的时候,有时会只截取到一个中文字符的1个字符或2字符宽度,没截取完整,将出现乱码或“?”问号的情况,用下面的函数截取标题,就不会有问题:

function get_brief_str($str, $max_length)
{
echo strlen($str) ."
";
if(strlen($str) > $max_length)
{
$check_num = 0;
for($i=0; $i < $max_length; $i++)
{
if (ord($str[$i]) > 128)
$check_num++;
}
if($check_num % 3 == 0)
$str = substr($str, 0, $max_length)."...";
else if($check_num % 3 == 1)
$str = substr($str, 0, $max_length + 2)."...";
else if($check_num % 3 == 2)
$str = substr($str, 0, $max_length + 1)."...";
}
return $str;
} 

三.MYSQL数据库使用UTF-8编码的问题
1.用phpmyadmin创建数据库和数据表
创建数据库的时候,请将“整理”设置为:“utf8_general_ci”或执行语句:

CREATE DATABASE `dbname` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

创建数据表的时候:如果是该字段是存放中文的话,则需要将“整理”设置为:“utf8_general_ci”,
如果该字段是存放英文或数字的话,默认就可以了。
相应的SQL语句,例如:

CREATE TABLE `test` (
`id` INT NOT NULL ,
`name` VARCHAR( 10 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
PRIMARY KEY ( `id` )
) ENGINE = MYISAM ; 

2.用PHP读写数据库
在连接数据库之后:

$connection = mysql_connect($host_name, $host_user, $host_pass);

加入两行:

mysql_query("set character set 'utf8'");//读库
mysql_query("set names 'utf8'");//写库

就可以正常的读写MYSQL数据库了。

四.JS相关的UTF-8编码问题

1.JS读Cookie的中文乱码问题
PHP写cookie的时候需要将中文字符进行escape编码,否则JS读到cookie中的中文字符将是乱码。
但php本身没有escape函数,我们新写一个escape函数:

function escape($str)
{
preg_match_all("/[\x80-\xff].|[\x01-\x7f]+/",$str,$r);
$ar = $r[0];
foreach($ar as $k=>$v)
{
if(ord($v[0]) < 128)
$ar[$k] = rawurlencode($v);
else
$ar[$k] = "%u".bin2hex(iconv("UTF-8","UCS-2",$v));
}
return join("",$ar);
} 

JS读cookie的时候,用unescape解码,然后就解决cookie中有中文乱码的问题了。
2.外部JS文件UTF-8编码问题
当一个HTML页面或则PHP页面包含一个外部的JS文件时,如果HTML页面或则PHP页面是UTF-8编码格式的文件,外部的JS文件同样要转成UTF-8的文件,否则将出现,没有包含不成功,调用函数时没有反应的情况。
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,如果是ANSI,需要将编码改成:UTF-8。

五.FLASH相关的UTF-8编码问题
FLASH内部对所有字符串,默认都是以UTF-8处理
1.FLASH读文普通本文件(txt,html)
要将文本文件的编码存为UTF-8
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,如果是ANSI,需要将编码改成:UTF-8。
2.FLASH读XML文件
要将XML文件的编码存为UTF-8
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,如果是ANSI,需要将编码改成:UTF-8。
在XML第1行写:

<?xml version="1.0" encoding="utf-8"?>
3.FLASH读PHP返回数据
如果PHP编码本身是UTF-8的,直接echo就可以了。
如果PHP编码本身是GB2312的,可以将PHP转存成UTF-8编码格式的文件,直接echo就可以了
如果PHP编码本身是GB2312的,而且不允许改文件的编码格式,用下面的语句将字符串转换成UTF-8的编码格式

$new_str = iconv("GB2312", "UTF-8", "$str");

再echo就可以了
4.FLASH读数据库(MYSQL)的数据
FLASH要通过PHP读取数据库中的数据,PHP本身的编码不重要,关键是如果数据库的编码是GB2312的话,需要用下面的语句将字符串转换成UTF-8的编码格式。

$new_str = iconv("GB2312", "UTF-8", "$str");

5.FLASH通过PHP写数据
一句话,FLASH传过来的字符串是UTF-8格式的,要转换成相应的编码格式,再操作(写文件、写数据库、直接显示等等),还是用iconv函数转换。
6.FLASH使用本地编码(理论上不推荐使用)
如果想让FLASH不使用UTF-8编码,而是使用本地编码。对于中国大陆地区而言,本地编码是GB2312或GBK
AS程序内,可以添加以下代码:

System.useCodepage = true;

那么FLASH内所有字符都是使用GB2312的编码了,所有导入到FLASH或者从FLASH导出的数据,都应该做相应的编码转换。
因为使用本地编码,会造成使用繁体中文地区的用户产生乱码,所以不推荐使用。

(0)

相关推荐

  • MSSQL转MYSQL,gb2312转utf-8无乱码解决方法

    使用软件:MySQLMigrationTool 提示数据过大,无法导入.修改my.cnf文件的max_allowed_packet = 100M以上.在windows操作系统中,my.cnf有可能显示不出来,需要用编辑器直接输入地址:盘符:\目录mysql教程binmy.cnf打开. "there can be only one TIMESTAMP column with CURRENT_TIMESTAMP in DEFAULT or ON UPDATE clause",MSSQL一个

  • PHP 解决utf-8和gb2312编码转换问题

    终于皇天不负有心人,答案还是让我找到了. 网上的都是这样用的 复制代码 代码如下: $content = iconv("utf-8","gb2312",$content); 这样做其实也对着了,看着确实是把utf-8转化为gb2312了,但是实际运行的话,往往都是以失败告终的,原因呢? 原因实际上也很简单,因为任何的函数都是执行错误的时候,同时很不幸的是iconv();就很终于出现错误.现在给你正确的答案. 真正的答案是这样的 复制代码 代码如下: $content

  • php实现utf-8和GB2312编码相互转换函数代码

    复制代码 代码如下: <?php /********************************************  *  * 函数名:get_utf8_to_gb($value)  * 作  用:utf8编码字符串转换成gb2312编码  * 作  者:刘先忠  * 日  期:2011-11-09   *  ********************************************/function   get_utf8_to_gb($value){  $value_1

  • unicode utf-8 gb18030 gb2312 gbk各种编码对比

    但是我这个的特点是追究原理,我在乎的事情都想弄明白,于是各个qq群依次发信息,没人理会.唉,郁闷.只好自己google it and teach myself .下面是详细介绍. 还有对各方求助没有人理会,我有些个人想法.现在的人已经很少有人去深究理论了,人们的观念是得过且过,人们通常只是知道什么,不知道为什么.对编程来说,个人认为这是很悲哀的事情,也是非常危险的事情.我想可能这也是中国的IT落后于美国的原因,我希望中国的编程人员能够好好想想了. 下面的东西是从网上查到的  Unicode 的编

  • 将字符串转换成gb2312或者utf-8编码的参数(js版)

    在很多时候,我们直接在url中传递中文参数时,读到的中文都是乱码,那么我们应该怎么将这些参数转换呢? 下面我们来介绍一下方法 1.我们新建一个 UrlEncode.js 然后将下面的代码拷贝进去 复制代码 代码如下: //JS版的Server.UrlEncode编码函数 String.prototype.UrlEncodeGB2312 = function () { var str = this; str = str.replace(/./g, function (sHex) { window.

  • UTF-8 GBK UTF8 GB2312 之间的区别和关系介绍

    UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强.UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示.如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包. GBK是国家标准GB2312基础上扩容后兼容GB2312的标准.GBK的文字编码是用双字节来表示的,即不论中.英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1.GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大. GBK

  • ASP中Utf-8与Gb2312编码转换乱码问题的解决方法 页面编码声明

    出现这样的问题是当你浏览UTF-8编码的时候,服务器默认用UTF-8的引擎来输出html,当你用再浏览GB2312的页面时,它还是用UTF-8来输出本应是GB2312编码的页面所以会乱码. 为了这个问题烦了我一个早上,终于的蓝色理想上得到解决. 首先让我们来了解一下Session对象提供了四个属性. 1.CodePage 读/写.整型. 定义用于在浏览器中显示页内容的代码页(Code Page).代码页是字符集的数字值,不同的语言和场所可能使用不同的代码页.例如,ANSI代码页 1252用于美国

  • UTF-8转GB2312函数

    复制代码 代码如下: <%  '用途:將UTF-8編碼漢字轉換為GB2312碼,兼容英文和數字  '版權:雖說是原創,其實也參考了別人的部分算法  '用法:Response.write UTF2GB("%E9%83%BD%E5%B8%82%E6%83%85%E7%B7%A3 %E6%98%9F%E5%BA%A7") function UTF2GB(UTFStr)  for Dig=1 to len(UTFStr)  if mid(UTFStr,Dig,1)="%&quo

  • PHP字符编码问题之GB2312 VS UTF-8解决方法

    看代码: 复制代码 代码如下: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8&

  • 用VBS实现的批量gb2312转utf-8,支持拖动

    复制代码 代码如下: '/*========================================================================= ' * Intro       拖动所有要转换的gb2312编码文件到这个文件上,程序会将它们自动转换为utf-8编码文件 ' * FileName    GB2312.To.UTF-8.vbs ' * Author      yongfa365 ' * Version     v1.0 ' * WEB         h

  • [转]ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)

    不知道为什么现在各大搜索引擎编码居然不一样.当然不是GB2312就是UTF-8了.编码问题是比较头疼的问题...头疼的不要命... 我们获得关键词,一般是通过来访页面的url进行分析的.比如 http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr= 各位肯定知道这个是通过urlencode编码的. 我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由ASP自己来进行的,但是现

  • utf-8编码转换成gb2312

    [code]<script>   function  chinesefromutf8url(strutf8)     {              var  bstr  =  "";              var  noffset  =  0;  //  processing  point  on  strutf8                          if(  strutf8  ==  ""  )                  re

  • PHP iconv 解决utf-8和gb2312编码转换问题

    终于皇天不负有心人,答案还是让我找到了. 网上的都是这样用的 复制代码 代码如下: $content = iconv("utf-8","gb2312",$content); 这样做其实也对着了,看着确实是把utf-8转化为gb2312了,但是实际运行的话,往往都是以失败告终的,原因呢? 原因实际上也很简单,因为任何的函数都是执行错误的时候,同时很不幸的是iconv();就很终于出现错误.现在给你正确的答案. 真正的答案是这样的 复制代码 代码如下: $content

  • ASP UTF-8页面乱码+GB2312转UTF-8 +生成UTF-8格式的文件(编码)第1/2页

    最好的方法: 先说一下基本的东西: <%@ codepage=65001%>UTF-8 <%@ codepage=936%>简体中文 <%@ codepage=950%>繁体中文 <%@ codepage=437 %>美国/加拿大英语 <%@ codepage=932 %>日文 <%@ codepage=949 %>韩文 <%@ codepage=866 %>俄文 codepage指定了IIS按什么编码读取传递过来的串串(

  • 用javascript实现gb2312转utf-8的脚本

    信息交换用汉字编码字符集-基本集 汉字标准交换码共分两级.第一级为常用字,有3755字,按汉语拼音字母顺序排列,第二级为次常用字,有3008字,按部首排列.GB2312的编码范围为2121H-777EH. UNICODE 是两字节的全编码,对于ASCII字符它也使用两字节表示.代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节.如果发生数据损坏, 某处内容破坏,则会引起其后汉字的混乱.UNICODE则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程. 关于编码

  • VBS实现GB2312,UTF-8,Unicode,BIG5编码转换工具

    演示 echo "ABCDE &!@#$ ^<>() %% abcde 测试!"> "处理前.txt" GB2Ue.vbs "处理前.txt" "处理后.txt" Ue2U8.vbs "处理后.txt" U82GB.vbs "处理后.txt" GB2U8.vbs "处理后.txt" U82Ue.vbs "处理后.txt"

随机推荐