深入解析Go 变量字符串与字符编码问题

目录
  • 字符串
  • Unicode UTF8
  • 常⽤字符串函数

字符串就是一串固定长度的字符连接起来的字符序列(很多字符拼接在一起的)。

Go的字符串是由单个字节连接起来的。Go语言的字符串的字节使用UTF-8编码标识Unicode文本

字符串

与其他主要编程语⾔的差异

string 是数据类型,不是引⽤或指针类型(因为是数据类型,所以string类型的零值不会是一个空类型nil,而是一个空字符串。)

	var a []int
	if a == nil{
		fmt.Println("a is nil")
	}
	var b string
	if b == ""{
		fmt.Println("b is kong")
	}

string 是只读的 byte slice,len 函数可以它所包含的 byte 数(string底层也是一个byte的数组

string 的 byte 数组可以存放任何数据

	var s string
	fmt.Println(len(s))
	// s[1] = "3"   string是不可变的byte slice

	s = "hello"
	fmt.Println(len(s))

	s = "\xE4\xB8\xA5" //可以存储任何二进制数据
	fmt.Println(s,len(s))

0
5
严 3

可以看到len得到的是字符串里面的byte数,不一定代表里面的字符数。(中文由3个byte组成)

Unicode UTF8

  • Unicode 是⼀种字符集(code point)是字符的编码
  • UTF8 是 unicode 的存储实现 (转换为字节序列的规则,也就是我提供了一种编码,并没有说这种编码在物理上怎么存储起来

rune是能够取出字符串里面unicode,这样就可以得到字符串。可以看到utf8存储分为了三个byte。

	s = "中"
	fmt.Println(len(s)) //是byte数

	c := []rune(s)  //rune能够取出字符串里面的unicode,这是c语言的机制,能够帮我们做转换
	fmt.Printf("中 unicode 编码%x\n",c[0])
	fmt.Printf("中 UTF8 存储样式 %x",s)

3
中 unicode 编码4e2d
中 UTF8 存储样式 e4b8ad

可以看到中字在字符编码集里面的编码,物理存储形式是依赖于utf8规则,被存储为0xE4B8AD,最后放在了string对应byte切片里面。分别是3个byte,每个byte放一个。

常⽤字符串函数

到此这篇关于Go 变量字符串与字符编码的文章就介绍到这了,更多相关go 变量字符串字符编码内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Golang 字符串与字节数组互转的实现

    目录 一.字符串与字节数组? 二.详细代码 1.字节转字符串 2.字符串转字节数组 3.完整运行测试 总结 一.字符串与字节数组? 字符串是 Go 语言中最常用的基础数据类型之一,本质上是只读的字符型数组,虽然字符串往往都被看做是一个整体,但是实际上字符串是一片连续的内存空间. Go 语言中另外一个类型字节(Byte).在ASCII中,一个英文字母占一个字节的空间,一个中文汉字占两个字节的空间.英文标点占一个字节,中文标点占两个字节.一个Byte数组中的元素对应一个ASCII码. 二.详细代码

  • GO语言入门学习之基本数据类型字符串

    目录 字符串 字符串转义符 byte和rune类型 修改字符串 类型转换 总结 字符串 Go语言中的字符串以原生数据类型出现. Go 语言里的字符串的内部实现使用UTF-8编码. 字符串的值为双引号(")中的内容,可以在Go语言的源码中直接添加非ASCII码字符 GO语言中字符串是用双引号包裹的 GO语言中单引号包裹的是字符 // 字符串 s := "Hello 中国" // 单独的字母.汉字.符合表示一个字符 c1 := 'h' c2 := '1' c3 := '中' //

  • go语言实现字符串base64编码的方法

    本文实例讲述了go语言实现字符串base64编码的方法.分享给大家供大家参考.具体实现方法如下: 复制代码 代码如下: package main import (     "fmt"     "encoding/base64" ) func main() { var b bytes.Buffer w := base64.NewEncoder(base64.URLEncoding, &b) w.Write(data) w.Close() data := b.B

  • 深入解析Go 变量字符串与字符编码问题

    目录 字符串 Unicode UTF8 常⽤字符串函数 字符串就是一串固定长度的字符连接起来的字符序列(很多字符拼接在一起的). Go的字符串是由单个字节连接起来的.Go语言的字符串的字节使用UTF-8编码标识Unicode文本 字符串 与其他主要编程语⾔的差异 string 是数据类型,不是引⽤或指针类型(因为是数据类型,所以string类型的零值不会是一个空类型nil,而是一个空字符串.) var a []int if a == nil{ fmt.Println("a is nil"

  • 再谈Python中的字符串与字符编码(推荐)

    本节内容: 1.前言 2.相关概念 3.Python中的默认编码 4.Python2与Python3中对字符串的支持 5.字符编码转换 一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章.有的人云亦云,也有的写得很深入.近日看到某知名培训机构的教学视频中再次谈及此问题,讲解的还是不尽人意,所以才想写这篇文字.一方面,梳理一下相关知识,另一方面,希望给其他人些许帮助. Python2的 默认编码 是ASCII,不能识别中文字符,需要显式指定字符编码:Python3的

  • Python3如何解决字符编码问题详解

    编码 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. 由于计算机是美国人发明的,因此,最早只有127个字母被编码到计算机里,也就是大小写英文字母.数字和一些符号,这个编码表被称为ASC

  • 基于python 字符编码的理解

    一.字符编码简史: 美国:1963年 ASCII (包含127个字符  占1个字节) 中国:1980年 GB2312 (收录7445个汉字,包括6763个汉字和682个其它符号) 1993年 GB13000 (收录20902个汉字) 1995年 GBK1.0 (收录 21003个汉字) 2000年 GB18030 (收录70244个汉字) 世界:1991年 unicode('万国码'也就统一编码,通常占2字节,复杂的汉字占4字节) UTF-8 (可变长的字符编码) 二.python中的编码解码应

  • php使用parse_str实现查询字符串解析到变量中的方法

    本文实例讲述了php使用parse_str实现查询字符串解析到变量中的方法.分享给大家供大家参考,具体如下: parse_str()函数可实现把字符串解析到变量中,这意味着实现了字符串与变量之间的一种转换机制,在与客户端数据传递的过程中,数据是通过字符串的形式传递,如GET请求,然后在服务器端通过$_GET/$_POST等全局变量实现字符串与变量的转换,如:http://www.jb51.net/?index.php?var1=1&var2=2,请求后服务端可使用$_GET['var1']的方式

  • JavaScript将字符串转换成字符编码列表的方法

    本文实例讲述了JavaScript将字符串转换成字符编码列表的方法.分享给大家供大家参考.具体如下: JavaScript将字符串转换成字符编码列表,例如foo转换成 [112,111,111] 方法 1: JavaScript 1.6 Array.map('foo', function(x) { return String.charCodeAt(x) }) // is [112,111,111] 方法2: JavaScript 1.7 [ String.charCodeAt(x) for ea

  • JavaScript中字符串与Unicode编码互相转换的实现方法

    本文实例讲述了JavaScript中字符串与Unicode编码互相转换的实现方法.分享给大家供大家参考,具体如下: 这段代码演示了JavaScript中字符串与Unicode编码的转换: // 为了控制台的演示方便, 变量没有添加 var 定义 // 实际编程中请避免 // 字符串 str = "中文"; // 获取字符 char0 = str.charAt(0); // "中" // 数字编码值 code = str.charCodeAt(0); // 20013

  • 详解C++中的ANSI与Unicode和UTF8三种字符编码基本原理与相互转换

    目录 1.概述 2.Visual Studio中的字符编码 3.ANSI窄字节编码 4.Unicode宽字节编码 5.UTF8编码 6.如何使用字符编码 7.三种字符编码之间的相互转换(附源码) 7.1.ANSI编码与Unicode编码之间的转换 7.2.UTF8编码与Unicode编码之间的转换 7.3.ANSI编码与UTF8编码之间的转换 8.Windows系统对使用ANSI窄字节字符编码的程序的兼容 9.字符编码导致程序启动失败的案例 1.概述 在日常的软件开发过程中,会时不时地去处理不同

  • GBK字符编码(字符集)缺陷导致web安全漏洞

    多字节编码由来 我们先来看看最常用的,最小字符集是ascii,对应的二级制可以表示为:00-7F 编码 .它也是我们计算机使用最早通用的字符集.前期几乎可以表示所有英文字符.后来,更多使用计算机国家加入后,我们就想在计算机中表示中文字符.我们知道常见中文就有7000多个字符.ascii码就只有128字符,只有0-127编码位置,远远不够用了.因此,我们就开始制作更大字符集,并且保证兼容ascii编码.要支持更多字符,选择更大字符集.我们只能用多个字节来描述一个字符了.为了很好的与ascii码,区

  • 字符集和字符编码(Charset & Encoding)

    相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如"бЇЯАзЪСЯ"."�????????"?还记得HTTP中的Accept-Charset.Accept-Encoding.Accept-Language.Content-Encoding.Content-Language等消息头字段?这些就是接下来我们要探讨的. 目录: 1.基础知识 2.常用字符集和字符编码2.1. ASCII字符集&编码2.2. GBXXXX字符集&编码2.3. BIG5字

随机推荐