Mysql字符集和排序规则详解

2025-01-30 18:46:28

前言

计算机存储数据的方式都是二进制数据，但是我们在mysql中存储的是字符串数据，那么这些数据到底在Mysql中如何存储呢？这就涉及到字符集的概念。

什么是字符集

举例如下，假设存在编码集test，只能识别a,b,A,B这几项，同时编码规则如下：

a---->00000001（0x01）
b---->00000010（0x02）
A---->00000011（0x03）
B---->00000100（0x04）

那么字符串'aAB'可以映射为 000000010000001100000100（十六进制 0x10304）

而ac将无法转换，因为超出了识别范围。

上面提到的将字符串根据字符集映射为二进制的过程称之为编码，反之就为解码。

什么是比较规则

那什么是比较规则呢？其实就是字符串的比较规则，如上举例而言，可以考虑比较二进制编码的大小，如字符'a'编码值的十六进制为0x01，字符'b'编码值的十六进制为0x02，那么可以确定a<b，这就是二进制比较规则，但是显然这种规则适用范围有限，如果遇到需要忽略大小写的场景，显然二进制编码比较规则并不适用，一个字符集可能对应多种比较规则。

常用字符集

根据上面的举例我们知道了test字符集描述的就是一个字符范围的界定，我们常用的字符集还有很多如下所示

ASCII字符集

这是一个最简单的字符集包含128个字符包含大小写字母，空格，数字，标点符号，特殊字符等，因为总共只有128个字符，那么可以只采用一个字节编码。

ISO8859-1

在ASCII字符集上扩充了128个西欧常用字符，总共包含256个字符，这个字符集又被称为latin1。

GB2312

收录汉字以及拉丁字母，希腊字母等，这种字符集兼容ASCII字符，在编码规则如下：

如果是ASCII编码范围的字符，采用一个字节编码
否则采用两个字节编码

这种情况编码长度不确定的被称为变长编码。

GBK字符集

GBK对GB2312的字符范围进行的扩充，兼容GB2312。

Unicode字符集

UniCode收录了地球上的所有字符，是所有国家通用的字符集，由此又被称为万国码，UniCode的编码规则包含UTF8、UTF16、UTF32这几种编码方案，其中UTF8采用1~4个字节编码一个字符，UTF16使用了2个字节或者4个字节编码一个字符，UTF32采用4个字节编码一个字符。

不过需要注意的是Mysql中没有区分编码方案和字符集，所以后续的uft8可以看作字符集。

注意点

在mysql中有两个特殊的字符集：

utf8mb3：是UniCode字符集编码方案中utf8的阉割版本，采用的是1~3个字节编码一个字符，它的另外一个名字就是utf8也就是说mysql中使用的就是阉割版本的utf8字符集。
**utf8mb4：**采用4个字节编码一个字符，最常见的就是存储emoji表情。

Mysql中查询字符集和比较规则

查询字符集

查询字符集命令可以采用show character set;或者show charset;都可以实现字符集查看，可以支持字符集模糊查询如show character set like '%utf8%';

##### mysql5.7.26版本中，包含41个字符集，下面列出常用的几个
mysql> show character set;
+----------+---------------------------------+---------------------+--------+
| Charset  | Description                     | Default collation   | Maxlen |
+----------+---------------------------------+---------------------+--------+
| latin1   | cp1252 West European            | latin1_swedish_ci   |      1 |
| ascii    | US ASCII                        | ascii_general_ci    |      1 |
| gb2312   | GB2312 Simplified Chinese       | gb2312_chinese_ci   |      2 |
| gbk      | GBK Simplified Chinese          | gbk_chinese_ci      |      2 |
| utf8     | UTF-8 Unicode                   | utf8_general_ci     |      3 |
| utf8mb4  | UTF-8 Unicode                   | utf8mb4_general_ci  |      4 |
........
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.00 sec)

查询比较规则

每个字符集都会对应一些比较规则，查询所有字符集的比较规则显然是太多了，所以这里以utf8字符集为例查询比较规则。

#### mysql5.7.26版本中utf8字符集对应27个比较规则，其余省略
mysql> show collation like '%utf8\_%';
+--------------------------+---------+-----+---------+----------+---------+
| Collation                | Charset | Id  | Default | Compiled | Sortlen |
+--------------------------+---------+-----+---------+----------+---------+
| utf8_general_ci          | utf8    |  33 | Yes     | Yes      |       1 |
| utf8_bin                 | utf8    |  83 |         | Yes      |       1 |
| utf8_unicode_ci          | utf8    | 192 |         | Yes      |       8 |
| utf8_spanish_ci          | utf8    | 199 |         | Yes      |       8 |
.........
+--------------------------+---------+-----+---------+----------+---------+
27 rows in set (0.00 sec)

Default列为YES表明该比较规则是默认的，一般比较规则中包含general代表通用比较规则。

比较规则一般命名如规律如下：

以字符集命名开头，如上面提到utf8。
中间一般是指作用于哪种语言，如utf8_spanish_ci，就是以西班牙语的规则比较。
后缀用于区分比较规则如是否区分大小写、重音，二进制等

后缀规则如下：

后缀	描述
_ci	不区分大小写
_cs	区分大小写
_bin	以二进制的形式比较
_ai	不区分重音
_as	区分重音

到此这篇关于Mysql字符集和排序规则详解的文章就介绍到这了,更多相关Mysql字符集内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

MYSQL字符集设置的方法详解(终端的字符集)

前言每次利用终端创建数据库或者创建表的时候,字符集都是latin1,或者进行插入值的时候,显示的是乱码(不指定字符集的时候)如下: 查看当前数据库的字符集 character_set_client:客户端请求数据的字符集 character_set_connection:客户机/服务器连接的字符集 character_set_database:默认数据库的字符集,无论默认数据库如何改变,都是这个字符集:如果没有默认数据库,那就使用 character_set_server指定的字符集,这个变
Linux系统下修改mysql字符集为UTF8步骤

目录 1.数据库中查看MySQL状态: 2.修改配置文件: 3.若是还没成功,可能是创建mysql时的配置或者刚上一步MySQL没有停止服务编辑 my.cnf 配置文件. Linux上修改MySQL字符编码为UTF8 开始在linux上装好了MySQL服务,在后期的使用过程中,突然发现在插入记录时,部分字段不能为中文,报错信息如下: mysql> insert into syudent values(1,'陶盼',21); ERROR 1366 (HY000): Incorrect string
Mysql 字符集不一致导致连表异常的解决

目录 1. 解决方法 2. mysql字符集字符集校验规则做一个简单的如下的连表查询,居然直接提示错误,居然是字符集不一致的问题,本文记录一下mysql的字符集类型,以及下面这个问题的解决方案 select a.id, b.id from tt as a, t2 as b where a.xx = b.xx -- Illegal mix of collations (utf8mb4_unicode_ci,IMPLICIT) and (utf8mb4_general_ci,IMPLICIT)
Mysql中的排序规则utf8_unicode_ci、utf8_general_ci的区别总结

用了这么长时间,发现自己竟然不知道utf_bin和utf_general_ci这两者到底有什么区别.. ci是 case insensitive, 即 "大小写不敏感", a 和 A 会在字符判断中会被当做一样的; bin 是二进制, a 和 A 会别区别对待. 例如你运行: SELECT * FROM table WHERE txt = 'a' 那么在utf8_bin中你就找不到 txt = 'A' 的那一行, 而 utf8_general_ci 则可以. utf8_general_
MySQL数据库之字符集 character

目录一.字符集 character 二.设置客户端字符集一.字符集 character 字符 character 是各种文字和符号的总称字符编码 character code 是计算机针对各种符号,在计算机中的一种二进制存储代号字符集character set 是多个字符的集合常见的字符集: ASCII 字符集 GB2312 字符集 Unicode 字符集二.设置客户端字符集 -- 设置客户端字符集编码 set names gbk; -- 查看字符集编码设置 show variabl
MySQL修改默认引擎和字符集详情

目录一.数据库引擎 1.1 查看数据库引擎 1.2 修改默认数据库引擎二.数据库字符集 2.1 查看字符集 2.2 修改字符集一.数据库引擎 1.1 查看数据库引擎 mysql> show engines; +--------------------+---------+----------------------------------------------------------------+--------------+------+------------+ | Engine |
Mysql字符集和排序规则详解

目录前言什么是字符集什么是比较规则常用字符集 ASCII字符集 ISO8859-1 GB2312 GBK字符集 Unicode字符集注意点 Mysql中查询字符集和比较规则查询字符集查询比较规则前言计算机存储数据的方式都是二进制数据,但是我们在mysql中存储的是字符串数据,那么这些数据到底在Mysql中如何存储呢?这就涉及到字符集的概念. 什么是字符集举例如下,假设存在编码集test,只能识别a,b,A,B这几项,同时编码规则如下: a---->00000001(0x01)
mysql字符集和校对规则(Mysql校对集)

简要说明字符集和校对规则字符集是一套符号和编码.校对规则是在字符集内用于比较字符的一套规则. MySql在collation提供较强的支持,oracel在这方面没查到相应的资料. 不同字符集有不同的校对规则,命名约定:以其相关的字符集名开始,通常包括一个语言名,并且以_ci(大小写不敏感)._cs(大小写敏感)或_bin(二元)结束校对规则一般分为两类: binary collation,二元法,直接比较字符的编码,可以认为是区分大小写的,因为字符集中'A'和'a'的编码显然不同. 字符集
一文带你了解MySQL字符集和比较规则

目录 1. MySQL中的utf8和utf8mb4 2. MySQL中的比较规则 3. 各级别的字符集和比较规则 3.1 服务器级别 3.2 数据库级别 3.3 表级别 3.4 列级别 4. 修改字符集或比较规则 5. MySQL中的字符集转换过程总结 1. MySQL中的utf8和utf8mb4 在MySQL中,我经常会看见utf8和utf8mb4这两种编码格式,但是这两种格式我并不了解,一般创建数据库的时候,如果让我选,我默认会选择utf8,但是这个和UTF-8长得最像. 但是实际上,这两
深入MYSQL字符数字转换的详解

1.将字符的数字转成数字,比如'0'转成0可以直接用加法来实现例如:将pony表中的d 进行排序,可d的定义为varchar,可以这样解决select * from pony order by (d+0) 2.在进行ifnull处理时,比如 ifnull(a/b,'0') 这样就会导致 a/b成了字符串,因此需要把'0'改成0,即可解决此困扰 3.比较数字和varchar时,比如a=11,b="11ddddd";则 select 11="11ddddd"相等若绝对比
MySQL数据库子查询语法规则详解

目录子查询简介 WHERE 子查询 FROM 子查询 SELECT 子查询子查询是在查询语句里面再嵌套一个查询,这是因为我们在提取数据的时候有很多不知道的数据产生了依赖关系.此时我们就需要先查询一组数据的结果集,然后将这个结果集作用为下一个查询的对象.在 “表连接的章节”,我们曾说过子查询的效率低下的问题,其实并不是所有的子查询效率都是低下的,“WHERE” 子查询在匹配记录的时候要反复执行,这是不推荐使用的:但是如果将查询结果集当做一张表来使用,与其他的表做一个连接,这就是 “FROM”
Linux上安装Mysql及简单的使用详解

1. 安装mysql sudo apt-get update sudo apt-get install mysql-server sudo apt-get install python-mysqldb(如果python中要使用,请安装) 2.登录root用户: mysql -u root -p 3.查看所有数据库: show databases; 4.选择一个数据库操作: use database_name; 5.查看当前数据库下所有的表: show tables; 6.创建一个数据库: cre
mysql语法之DQL操作详解

目录简单查询运算符查询排序查询聚合查询分组查询分页查询一张表查询结果插入到另一张表 SQL语句分析 DQL小练习1 DQL小练习2 正则表达式总结 DQL(Data Query Language),数据查询语言,主要是用来查询数据的,这也是SQL中最重要的部分! 简单查询 #DQL操作之基本查询 #创建数据库 CREATE DATABASE IF NOT EXISTS mydb2; #使用数据库 USE mydb2; #创建表 CREATE TABLE IF NOT EXISTS
Mysql调优Explain工具详解及实战演练(推荐)

Mysql调优Explain工具详解以及实战演练 Explain工具介绍Explain分析示例explain 两个变种explain中的列索引最佳实战索引使用总结: Mysql安装文档参考 Explain工具介绍使用EXPLAIN关键字可以模拟优化器执行SQL语句,分析你的查询语句或是结构的性能瓶颈在 select 语句之前增加 explain 关键字,MySQL 会在查询上设置一个标记,执行查询会返回执行计划的信息,而不是执行这条SQL 注意:如果 from 中包含子查询,仍会执行该子
Mysql数据库group by原理详解

目录引言 1. 使用group by的简单例子 2. group by 原理分析 2.1 explain 分析 2.2 group by 的简单执行流程 3. where 和 having的区别 3.1 group by + where 的执行流程 3.2 group by + having 的执行 3.3 同时有where.group by .having的执行顺序 3.4 where + having 区别总结 4. 使用 group by 注意的问题 4.1 group by一定要配合聚
MySql常用数据类型与操作详解

目录常用数据类型数据库基本操作约束类型常用数据类型 1.int:整形 2.double(m,d) decimal(m,d):浮点数类型 (m指定长度,d表示小数点位数) 3.varchar(size):字符串类型 4.timestamp:日期类型数据库基本操作不管执行什么语句,都要在语句的最后加上:(分号). 1.创建数据库 create database 数据库名: 2.显示当前数据库 show databases; 3.删除数据库 drop database 数据库名; 4.使用