Golang 语言高效使用字符串的方法

01介绍

在 Golang 语言中,string 类型的值是只读的,不可以被修改。如果需要修改,通常的做法是对原字符串进行截取和拼接操作,从而生成一个新字符串,但是会涉及内存分配和数据拷贝,从而有性能开销。本文我们介绍在 Golang 语言中怎么高效使用字符串。

02字符串的数据结构

在 Golang 语言中,字符串的值存储在一块连续的内存空间,我们可以把存储数据的内存空间看作一个字节数组,字符串在 runtime 中的数据结构是一个结构体 stringStruct,该结构体包含两个字段,分别是指针类型的 str 和整型的 len。字段 str 是指向字节数组头部的指针值,字段 len 的值是字符串的长度(字节个数)。

type stringStruct struct {
 str unsafe.Pointer
 len int
}

我们通过示例代码,比较一下字符串和字符串指针的性能差距。我们定义两个函数,分别用 string 和 *string 作为函数的参数。

var strs string = `Go is an open source programming language that makes it easy to build simple, reliable, and efficient software.`

func str (str string) {
 _ = str + "golang"
}

func ptr (str *string) {
 _ = *str + "golang"
}

func BenchmarkString (b *testing.B) {
 for i := 0; i < b.N; i++ {
 str(strs)
 }
}

func BenchmarkStringPtr (b *testing.B) {
 for i := 0; i < b.N; i++ {
 ptr(&strs)
 }
}

output:

go test -bench . -benchmem string_test.go
goos: darwin
goarch: amd64
cpu: Intel(R) Core(TM) i9-9880H CPU @ 2.30GHz
BenchmarkString-16    21987604    46.05 ns/op   128 B/op    1 allocs/op
BenchmarkStringPtr-16   24459241    46.23 ns/op   128 B/op    1 allocs/op
PASS
ok  command-line-arguments 2.590s

阅读上面这段代码,我们可以发现使用字符串作为参数,和使用字符串指针作为参数,它们的性能基本相同。

虽然字符串的值并不是具体的数据,而是一个指向存储字符串数据的内存地址的指针和一个字符串的长度,但是字符串仍然是值类型。

03字符串是只读的,不可修改

在 Golang 语言中,字符串是只读的,它不可以被修改。

func main () {
 str := "golang"
 fmt.Println(str) // golang
 byteSlice := []byte(str)
 byteSlice[0] = 'a'
 fmt.Println(string(byteSlice)) // alang
 fmt.Println(str) // golang
}

阅读上面这段代码,我们将字符串类型的变量 str 转换为字节切片类型,并赋值给变量 byteSlice,使用索引下标修改 byteSlice 的值,打印结果仍未发生改变。

因为字符串转换为字节切片,Golang 编译器会为字节切片类型的变量重新分配内存来存储数据,而不是和字符串类型的变量共用同一块内存空间。

可能会有读者想到用指针修改字符串类型的变量存储在内存中的数据。

func main () {
 var str string = "golang"
 fmt.Println(str)
 ptr := (*uintptr)(unsafe.Pointer(&str))
 var arr *[6]byte = (*[6]byte)(unsafe.Pointer(*ptr))
 var len *int = (*int)(unsafe.Pointer(uintptr(unsafe.Pointer(&str)) + unsafe.Sizeof((*uintptr)(nil))))
 for i := 0; i < (*len); i++ {
  fmt.Printf("%p => %c\n", &((*arr)[i]), (*arr)[i])
  ptr2 := &((*arr)[i])
  val := (*ptr2)
  (*ptr2) = val + 1
 }
 fmt.Println(str)
}

output:

go run main.go
golang
0x10c96d2 => g
unexpected fault address 0x10c96d2
fatal error: fault
[signal SIGBUS: bus error code=0x2 addr=0x10c96d2 pc=0x10a4c56]

阅读上面这段代码,我们可以发现在代码中尝试通过指针修改 string 类型的 str 变量的存储在内存中的数据,结果引发了 signal SIGBUS 运行时错误,从而证明 string 类型的变量是只读的。

我们已经知道字符串在 runtime 中的结构体包含两个字段,指向存储数据的内存地址的指针和字符串的长度,因为字符串是只读的,字符串被赋值后,它的数据和长度都不会被修改,所以读取字符串的长度,实际上就是读取字段 len 的值,复杂度是 O(1)。

在字符串比较时,因为字符串是只读的,不可修改的,所以只要两个比较的字符串的长度 len 的值不同,就可以判断这两个字符串不相同,不用再去比较两个字符串存储的具体数据。

如果 len 的值相同,再去判断两个字符串的指针是否指向同一块内存,如果 len 的值相同,并且指针指向同一块内存,则可以判断两个字符串相同。但是如果 len 的值相同,而指针不是指向同一块内存,那么还需要继续去比较两个字符串的指针指向的字符串数据是否相同。

04字符串拼接

在 Golang 语言中,关于字符串拼接有多种方式,分别是:

  • 使用操作符 +/+=
  • 使用 fmt.Sprintf
  • 使用 bytes.Buffer
  • 使用 strings.Join
  • 使用 strings.Builder

其中使用操作符是最易用的,但是它不是最高效的,一般使用场景是用于已知需要拼接的字符串的长度。

使用 fmt.Sprintf 拼接字符串,性能是最差的,但是它可以格式化,所以一般使用场景是需要格式化拼接字符串。

使用 bytes.Buffer 和使用 strings.Join 的性能比较接近,性能最高的字符串拼接方式是使用 strings.Builder 。

我准备对 strings.Builder 的字符串拼接方式多费些笔墨。

Golang 语言标准库 strings 中的 Builder 类型,用于在 Write 方法中有效拼接字符串,它减少了数据拷贝和内存分配。

type Builder struct {
 addr *Builder // of receiver, to detect copies by value
 buf []byte
}

Builder 结构体中包含两个字段,分别是 addr 和 buf,字段 addr 是指针类型,字段 buf 是字节切片类型,但是它的值仍然不允许被修改,但是字节切片中的值可以被拼接或者被重置。

Builder 提供了一系列 Write* 拼接方法,这些方法可以用于把新数据拼接到已存在的数据的末尾,同时如果字节切片的容量不够用,可以自动扩容。需要注意的是,只要触发扩容,就会涉及内存分配和数据拷贝。自动扩容规则和切片的扩容规则相同。

除了自动扩容,还可以手动扩容,Builder 提供的 Grow 方法,可以根据 int 类型的传参,扩充字节数量。因为扩容操作,会涉及内存分配和数据拷贝,所以调用 Grow 方法手动扩容时,Golang 也做了优化,如果当前字节切片的容量剩余字节数小于或等于传参的值, Grow 方法将不会执行扩容操作。手动扩容规则是原字节切片容量的 2 倍加上传参的值。

Builder 类型还提供了一个重置方法 Reset,它可以将 Builder 类型的变量重置为零值。被重置后,原字节切片将会被垃圾回收。

在了解完上述 Builder 的介绍后,相信读者已对 Builder 有了初步认识。下面我们通过代码看一下预分配字节数量和未分配字节数量的区别:

var lan []string = []string{
 "golang",
 "php",
 "javascript",
}

func stringBuilder (lan []string) string {
 var str strings.Builder
 for _, val := range lan {
 str.WriteString(val)
 }
 return str.String()
}

func stringBuilderGrow (lan []string) string {
 var str strings.Builder
 str.Grow(16)
 for _, val := range lan {
 str.WriteString(val)
 }
 return str.String()
}

func BenchmarkBuilder (b *testing.B) {
 for i := 0; i < b.N; i++ {
 stringBuilder(lan)
 }
}

func BenchmarkBuilderGrow (b *testing.B) {
 for i := 0; i < b.N; i++ {
 stringBuilderGrow(lan)
 }
}

output:

go test -bench . -benchmem builder_test.go
goos: darwin
goarch: amd64
cpu: Intel(R) Core(TM) i9-9880H CPU @ 2.30GHz
BenchmarkBuilder-16    13761441    81.85 ns/op   56 B/op    3 allocs/op
BenchmarkBuilderGrow-16   20487056    56.20 ns/op   48 B/op    2 allocs/op
PASS
ok  command-line-arguments 2.888s

阅读上面这段代码,可以发现调用 Grow 方法,预分配字节数量比未预分配字节数量的字符串拼接效率高。我们在可以预估字节数量的前提下,尽量使用 Grow 方法预先分配字节数量。

注意:第一,Builder 类型的变量在被调用之后,不可以再被复制,否则会引发 panic。第二,因为 Builder 类型的值不是完全不可修改的,所以使用者需要注意并发安全的问题。

05字符串和字节切片互相转换

因为切片类型除了只能和 nil 做比较之外,切片类型之间是无法做比较操作的。如果我们需要对切片类型做比较操作,通常的做法是先将切片类型转换为字符串类型。但是因为 string 类型是只读的,不可修改的,所以转换操作会涉及内存分配和数据拷贝。

为了提升转换的性能,唯一的方法就是减少或者避免内存分配的开销。在 Golang 语言中,运行时对二者的互相转换也做了优化,感兴趣的读者可以阅读 runtime 中的相关源码:

/usr/local/go/src/runtime/string.go

但是,我们还可以继续优化,实现零拷贝的转换操作,从而避免内存分配的开销,提升转换效率。

先阅读 reflect 中 StringHeader 和 SliceHeader 的数据结构:

// /usr/local/go/src/reflect/value.go

type StringHeader struct {
 Data uintptr // 指向存储数据的字节数组
 Len int // 长度
}

type SliceHeader struct {
 Data uintptr // 指向存储数据的字节数组
 Len int // 长度
 Cap int // 容量
}

阅读上面这段代码,我们可以发现 StringHeader 和 SliceHeader 的字段只缺少一个表示容量的字段 Cap,二者都有指向存储数据的字节数组的指针和长度。我们只需要通过使用 unsafe.Pointer 获取内存地址,就可以实现在原内存空间修改数据,避免了内存分配和数据拷贝的开销。

因为 StringHeader 比 SliceHeader 缺少一个表示容量的字段 Cap,所以通过 unsafe.Pointer 将 *SliceHeader 转换为 *StringHeader 没有问题,但是反之就不行了。我们需要补上一个 Cap 字段,并且将字段 Len 的值作为字段 Cap 的默认值。

func main () {
 str := "golang"
 fmt.Printf("str val:%s type:%T\n", str, str)
 strPtr := (*reflect.SliceHeader)(unsafe.Pointer(&str))
 // strPtr[0] = 'a'
 strPtr.Cap = strPtr.Len
 fmt.Println(strPtr.Data)
 str2 := *(*[]byte)(unsafe.Pointer(strPtr))
 fmt.Printf("str2 val:%s type:%T\n", str2, str2)
 fmt.Println((*reflect.SliceHeader)(unsafe.Pointer(&str2)).Data)
}

output:

go run main.go
golang
str val:golang type:string
17602449
str2 val:golang type:[]uint8
17602449

阅读上面这段代码,我们可以发现通过使用 unsafe.Pointer 把字符串转换为字节切片,可以做到零拷贝,str 和 str2 共用同一块内存,无需新分配一块内存。但是需要注意的是,转换后的字节切片仍然不能修改,因为在 Golang 语言中字符串是只读的,通过索引下标修改会引发 panic。

06总结

本文我们介绍了怎么高效使用 Golang 语言中的字符串,先是介绍了字符串在 runtime 中的数据结构,然后介绍了字符串拼接的几种方式,字符串与字节切片零拷贝互相转换,还通过示例代码证明了字符串在 Golang 语言中是只读的。更多关于字符串的操作,读者可以阅读标准库 strings 和 strconv 了解更多内容。

到此这篇关于Golang 语言高效使用字符串的方法的文章就介绍到这了,更多相关Golang 语言使用字符串内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 简单谈谈Golang中的字符串与字节数组

    前言 字符串是 Go 语言中最常用的基础数据类型之一,虽然字符串往往都被看做是一个整体,但是实际上字符串是一片连续的内存空间,我们也可以将它理解成一个由字符组成的数组,Go 语言中另外一个与字符串关系非常密切的类型就是字节(Byte)了,相信各位读者也都非常了解,这里也就不展开介绍. 我们在这一节中就会详细介绍这两种基本类型的实现原理以及它们的转换关系,但是这里还是会将介绍的重点主要放在字符串上,因为这是我们接触最多的一种基本类型并且后者就是一个简单的 uint8 类型,所以会给予 string

  • Golang实现字符串倒序的几种解决方案

    前言 本文主要给大家介绍了关于Golang实现字符串倒序的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍: 字符串倒置如下: Hello World --> dlroW olleH 解决方案1: length := len(str) array := make([]string , length) for i , v := range str{ array[i] = string(v) } for i := 0 ; i < length/2 ; i++ { array[

  • Golang 统计字符串字数的方法示例

    比如新浪微博发微博的输入框有一个已输入字数的统计,它的规则推测是:汉字和中文标点算 1 个字数,英文和其他符号算 0.5 个字数.不足 1 个字算 1 个.大家可以去微博体验一下计算方式. golang 可以使用正则和 unicode 包的方法判断. 以下函数 GetStrLength 返回输入的字符串的字数,每个汉字和中文标点算 1 个字数,英文和其他字符算半个字数,不足 1 个字算 1 个. // GetStrLength 返回输入的字符串的字数,汉字和中文标点算 1 个字数,英文和其他字符

  • Golang中文字符串截取函数实现原理

    在golang中可以通过切片截取一个数组或字符串,但是当截取的字符串是中文时,可能会出现的问题是:由于中文一个字不只是由一个字节组成,所以直接通过切片可能会把一个中文字的编码截成两半,结果导致最后一个字符是乱码. 例如: 想要截取前四个字 name := "我是胡八一" fmt.Println("name[:4] = ",name[:4]) 执行后得到的结果会是这样的: name[:4] = 我? 解决方法: 先将其转为[]rune,再截取后,转会string na

  • Golang 中整数转字符串的方法

    整形转字符串经常会用到,本文讨论一下 Golang 提供的这几种方法.基于 go1.10.1 fmt.Sprintf fmt 包应该是最常见的了,从刚开始学习 Golang 就接触到了,写 'hello, world' 就得用它.它还支持格式化变量转为字符串. func Sprintf(format string, a ...interface{}) string Sprintf formats according to a format specifier and returns the re

  • golang 中获取字符串个数的方法

    在 golang 中不能直接用 len 函数来统计字符串长度,查看了下源码发现字符串是以 UTF-8 为格式存储的,说明 len 函数是取得包含 byte 的个数 // string is the set of all strings of 8-bit bytes, conventionally but not // necessarily representing UTF-8-encoded text. A string may be empty, but // not nil. Values

  • Golang 语言高效使用字符串的方法

    01介绍 在 Golang 语言中,string 类型的值是只读的,不可以被修改.如果需要修改,通常的做法是对原字符串进行截取和拼接操作,从而生成一个新字符串,但是会涉及内存分配和数据拷贝,从而有性能开销.本文我们介绍在 Golang 语言中怎么高效使用字符串. 02字符串的数据结构 在 Golang 语言中,字符串的值存储在一块连续的内存空间,我们可以把存储数据的内存空间看作一个字节数组,字符串在 runtime 中的数据结构是一个结构体 stringStruct,该结构体包含两个字段,分别是

  • Go语言中的字符串拼接方法详情

    目录 1.string类型 2.strings包 2.1 strings.Builder类型 2.2 strings.Reader类型 3.bytes.Buffer 3.1 bytes.Buffer:写数据 3.2 bytes.Buffer:读数据 4.字符串拼接 4.1 直接相加 4.2strings.Builder 4.3 strings.Join() 4.4 bytes.Buffer 4.5 append方法 4.6 fmt.Sprintf 5.字符串拼接性能测试 1.string类型 s

  • Go语言中的字符串处理方法示例详解

    1 概述 字符串,string,一串固定长度的字符连接起来的字符集合.Go语言的字符串是使用UTF-8编码的.UTF-8是Unicode的实现方式之一. Go语言原生支持字符串.使用双引号("")或反引号(``)定义. 双引号:"", 用于单行字符串. 反引号:``,用于定义多行字符串,内部会原样解析. 示例: // 单行 "心有猛虎,细嗅蔷薇" // 多行 ` 大风歌 大风起兮云飞扬. 威加海内兮归故乡. 安得猛士兮守四方! ` 字符串支持转义

  • Golang 语言控制并发 Goroutine的方法

    goroutine 是 Go语言中的轻量级线程实现,由 Go 运行时(runtime)管理.Go 程序会智能地将 goroutine 中的任务合理地分配给每个 CPU. 01介绍 Golang 语言的优势之一是天生支持并发,我们在 Golang 语言开发中,通常使用的并发控制方式主要有 Channel,WaitGroup 和 Context,本文我们主要介绍一下 Golang 语言中并发控制的这三种方式怎么使用?关于它们各自的详细介绍在之前的文章已经介绍过,感兴趣的读者朋友们可以按需翻阅. 02

  • Go语言编程中字符串切割方法小结

    1.func Fields(s string) []string,这个函数的作用是按照1:n个空格来分割字符串最后返回的是 []string的切片 复制代码 代码如下: import (  "fmt"  "strings" ) func main() {  fmt.Println(strings.Fields("hello widuu golang")) //out  [hello widuu golang] } 2.func FieldsFun

  • Golang语言如何高效拼接字符串详解

    目录 01.介绍 02.操作符 + 03.strings.Join 方法 04.fmt.Sprint 方法 05.bytes.Buffer 类型 06.strings.Builder 类型 07.总结 01.介绍 在编程语言中,字符串是一种重要的数据结构.在 Golang 语言中,因为字符串只能被访问,不能被修改,所以,如果我们在 Golang 语言中进行字符串拼接操作,Golang 需要进行内存拷贝. 如果读者朋友们了解过 Golang 语言内存管理的相关知识,就会知道内存拷贝会带来性能消耗.

  • Go 高效截取字符串的一些思考

    最近我在Go Forum中发现了String size of 20 character的问题,"hollowaykeanho" 给出了相关的答案,而我从中发现了截取字符串的方案并非最理想的方法,因此做了一系列实验并获得高效截取字符串的方法,这篇文章将逐步讲解我实践的过程. 字节切片截取 这正是 "hollowaykeanho" 给出的第一个方案,我想也是很多人想到的第一个方案,利用 go 的内置切片语法截取字符串: s := "abcdef" f

  • Go语言常用字符串处理方法实例汇总

    本文实例汇总了Go语言常用字符串处理方法.分享给大家供大家参考.具体如下: 复制代码 代码如下: package main import (     "fmt"     "strings"     //"unicode/utf8" ) func main() {     fmt.Println("查找子串是否在指定的字符串中")     fmt.Println(" Contains 函数的用法")    

  • Golang编程实现删除字符串中出现次数最少字符的方法

    本文实例讲述了Golang编程实现删除字符串中出现次数最少字符的方法.分享给大家供大家参考,具体如下: 描述: 实现删除字符串中出现次数最少的字符,若多个字符出现次数一样,则都删除.输出删除这些单词后的字符串,字符串中其它字符保持原来的顺序. 输入: 字符串只包含小写英文字母, 不考虑非法输入,输入的字符串长度小于等于20个字节. 输出: 删除字符串中出现次数最少的字符后的字符串. 样例输入: abcdd 样例输出: dd 代码实现: 复制代码 代码如下: package huawei impo

随机推荐