Go 高效截取字符串的一些思考

2025-02-03 16:51:01

最近我在Go Forum中发现了String size of 20 character的问题，“hollowaykeanho” 给出了相关的答案，而我从中发现了截取字符串的方案并非最理想的方法，因此做了一系列实验并获得高效截取字符串的方法，这篇文章将逐步讲解我实践的过程。

字节切片截取

这正是 “hollowaykeanho” 给出的第一个方案，我想也是很多人想到的第一个方案，利用 go 的内置切片语法截取字符串：

s := "abcdef"
fmt.Println(s[1:4])

我们很快就了解到这是按字节截取，在处理 ASCII 单字节字符串截取，没有什么比这更完美的方案了，中文往往占多个字节，在 utf8 编码中是3个字节，如下程序我们将获得乱码数据：

s := "Go 语言"
fmt.Println(s[1:4])

杀手锏 - 类型转换 []rune

“hollowaykeanho” 给出的第二个方案就是将字符串转换为 []rune，然后按切片语法截取，再把结果转成字符串。

s := "Go 语言"
rs := []rune(s)
fmt.Println(strings(rs[1:4]))

首先我们得到了正确的结果，这是最大的进步。不过我对类型转换一直比较谨慎，我担心它的性能问题，因此我尝试在搜索引擎和各大论坛查找答案，但是我得到最多的还是这个方案，似乎这已经是唯一的解。

我尝试写个性能测试评测它的性能：

package benchmark

import (
  "testing"
)

var benchmarkSubString = "Go语言是Google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的编程语言。为了方便搜索和识别，有时会将其称为Golang。"
var benchmarkSubStringLength = 20

func SubStrRunes(s string, length int) string {
  if utf8.RuneCountInString(s) > length {
    rs := []rune(s)
    return string(rs[:length])
  }

  return s
}

func BenchmarkSubStrRunes(b *testing.B) {
  for i := 0; i < b.N; i++ {
    SubStrRunes(benchmarkSubString, benchmarkSubStringLength)
  }
}

我得到了让我有些吃惊的结果：

goos: darwin
goarch: amd64
pkg: github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark
BenchmarkSubStrRunes-8      872253       1363 ns/op       336 B/op     2 allocs/op
PASS
ok   github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark   2.120s

对 69 个的字符串截取前 20 个字符需要大概 1.3 微秒，这极大的超出了我的心里预期，我发现因为类型转换带来了内存分配，这产生了一个新的字符串，并且类型转换需要大量的计算。

救命稻草 - utf8.DecodeRuneInString

我想改善类型转换带来的额外运算和内存分配，我仔细的梳理了一遍 strings 包，发现并没有相关的工具，这时我想到了 utf8 包，它提供了多字节计算相关的工具，实话说我对它并不熟悉，或者说没有主动（直接）使用过它，我查看了它所有的文档发现 utf8.DecodeRuneInString 函数可以转换单个字符，并给出字符占用字节的数量，我尝试了如此下的实验：

package benchmark

import (
  "testing"
  "unicode/utf8"
)

var benchmarkSubString = "Go语言是Google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的编程语言。为了方便搜索和识别，有时会将其称为Golang。"
var benchmarkSubStringLength = 20

func SubStrDecodeRuneInString(s string, length int) string {
  var size, n int
  for i := 0; i < length && n < len(s); i++ {
    _, size = utf8.DecodeRuneInString(s[n:])
    n += size
  }

  return s[:n]
}

func BenchmarkSubStrDecodeRuneInString(b *testing.B) {
  for i := 0; i < b.N; i++ {
    SubStrDecodeRuneInString(benchmarkSubString, benchmarkSubStringLength)
  }
}

运行它之后我得到了令我惊喜的结果：

goos: darwin
goarch: amd64
pkg: github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark
BenchmarkSubStrDecodeRuneInString-8   10774401        105 ns/op        0 B/op     0 allocs/op
PASS
ok   github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark   1.250s

较 []rune 类型转换效率提升了 13倍，消除了内存分配，它的确令人激动和兴奋，我迫不及待的回复了 “hollowaykeanho” 告诉他我发现了一个更好的方法，并提供了相关的性能测试。

我有些小激动，兴奋的浏览着论坛里各种有趣的问题，在查看一个问题的帮助时 (忘记是哪个问题了-_-||) ，我惊奇的发现了另一个思路。

良药不一定苦 - range 字符串迭代

许多人似乎遗忘了 range 是按字符迭代的，并非字节。使用 range 迭代字符串时返回字符起始索引和对应的字符，我立刻尝试利用这个特性编写了如下用例：

package benchmark

import (
  "testing"
)

var benchmarkSubString = "Go语言是Google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的编程语言。为了方便搜索和识别，有时会将其称为Golang。"
var benchmarkSubStringLength = 20

func SubStrRange(s string, length int) string {
  var n, i int
  for i = range s {
    if n == length {
      break
    }

    n++
  }

  return s[:i]
}

func BenchmarkSubStrRange(b *testing.B) {
  for i := 0; i < b.N; i++ {
    SubStrRange(benchmarkSubString, benchmarkSubStringLength)
  }
}

我尝试运行它，这似乎有着无穷的魔力，结果并没有令我失望。

goos: darwin
goarch: amd64
pkg: github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark
BenchmarkSubStrRange-8     12354991        91.3 ns/op       0 B/op     0 allocs/op
PASS
ok   github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark   1.233s

它仅仅提升了13%，但它足够的简单和易于理解，这似乎就是我苦苦寻找的那味良药。

如果你以为这就结束了，不、这对我来只是探索的开始。

终极时刻 - 自己造轮子

喝了 range 那碗甜的腻人的良药，我似乎冷静下来了，我需要造一个轮子，它需要更易用，更高效。

于是乎我仔细观察了两个优化方案，它们似乎都是为了查找截取指定长度字符的索引位置，如果我可以提供一个这样的方法，是否就可以提供用户一个简单的截取实现 s[:strIndex(20)] ，这个想法萌芽之后我就无法再度摆脱，我苦苦思索两天来如何来提供易于使用的接口。

之后我创造了exutf8.RuneIndexInString和 exutf8.RuneIndex方法，分别用来计算字符串和字节切片中指定字符数量结束的索引位置。

我用 exutf8.RuneIndexInString实现了一个字符串截取测试：

package benchmark

import (
  "testing"
  "unicode/utf8"

  "github.com/thinkeridea/go-extend/exunicode/exutf8"
)

var benchmarkSubString = "Go语言是Google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的编程语言。为了方便搜索和识别，有时会将其称为Golang。"
var benchmarkSubStringLength = 20

func SubStrRuneIndexInString(s string, length int) string {
  n, _ := exutf8.RuneIndexInString(s, length)
  return s[:n]
}

func BenchmarkSubStrRuneIndexInString(b *testing.B) {
  for i := 0; i < b.N; i++ {
    SubStrRuneIndexInString(benchmarkSubString, benchmarkSubStringLength)
  }
}

尝试运行它，我对结果感到十分欣慰：

goos: darwin
goarch: amd64
pkg: github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark
BenchmarkSubStrRuneIndexInString-8   13546849        82.4 ns/op       0 B/op     0 allocs/op
PASS
ok   github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark   1.213s

性能较 range 提升了 10%，让我很欣慰可以再次获得新的提升，这证明它是有效的。

它足够的高效，但是却不够易用，我截取字符串需要两行代码，如果我想截取 10~20之间的字符就需要4行代码，这并不是用户易于使用的接口，我参考了其它语言的 sub_string 方法，我想我应该也设计一个这个样的接口给用户。

exutf8.RuneSubString和 exutf8.RuneSub是我认真思索后编写的方法：

func RuneSubString(s string, start, length int) string

它有三个参数：

s : 输入的字符串
start : 开始截取的位置，如果 start 是非负数，返回的字符串将从 string 的 start 位置开始，从 0 开始计算。例如，在字符串 “abcdef” 中，在位置 0 的字符是 “a”，位置 2 的字符串是 “c” 等等。如果 start 是负数，返回的字符串将从 string 结尾处向前数第 start 个字符开始。如果 string 的长度小于 start，将返回空字符串。
length：截取的长度，如果提供了正数的 length，返回的字符串将从 start 处开始最多包括 length 个字符（取决于 string 的长度）。如果提供了负数的 length，那么 string 末尾处的 length 个字符将会被省略（若 start 是负数则从字符串尾部算起）。如果 start 不在这段文本中，那么将返回空字符串。如果提供了值为 0 的 length，返回的子字符串将从 start 位置开始直到字符串结尾。

我为他们提供了别名，根据使用习惯大家更倾向去 strings 包寻找这类问题的解决方法，我创建了exstrings.SubString 和 exbytes.Sub作为更易检索到的别名方法。

最后我需要再做一个性能测试，确保它的性能：

package benchmark

import (
  "testing"

  "github.com/thinkeridea/go-extend/exunicode/exutf8"
)

var benchmarkSubString = "Go语言是Google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的编程语言。为了方便搜索和识别，有时会将其称为Golang。"
var benchmarkSubStringLength = 20

func SubStrRuneSubString(s string, length int) string {
  return exutf8.RuneSubString(s, 0, length)
}

func BenchmarkSubStrRuneSubString(b *testing.B) {
  for i := 0; i < b.N; i++ {
    SubStrRuneSubString(benchmarkSubString, benchmarkSubStringLength)
  }
}

运行它，不会让我失望：

goos: darwin
goarch: amd64
pkg: github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark
BenchmarkSubStrRuneSubString-8     13309082        83.9 ns/op       0 B/op     0 allocs/op
PASS
ok   github.com/thinkeridea/go-extend/exunicode/exutf8/benchmark   1.215s

虽然相较 exutf8.RuneIndexInString有所下降，但它提供了易于交互和使用的接口，我认为这应该是最实用的方案，如果你追求极致仍然可以使用 exutf8.RuneIndexInString，它依然是最快的方案。

总结

当看到有疑问的代码，即使它十分的简单，依然值得深究，并不停的探索它，这并不枯燥和乏味，反而会有极多收获。

从起初 []rune 类型转换到最后自己造轮子，不仅得到了16倍的性能提升，我还学习了utf8包、加深了range 遍历字符串的特性以及为 go-extend仓库收录了多个实用高效的解决方案，让更多go-extend的用户得到成果。

go-extend是一个收录实用、高效方法的仓库，读者们如果好的函数和通用高效的解决方案，期待你们不吝啬给我发送 Pull request，你也可以使用这个仓库加快功能实现及提升性能。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Go语言截取字符串函数用法

本文实例讲述了Go语言截取字符串函数用法.分享给大家供大家参考.具体如下: 复制代码代码如下: func Substr(str string, start, length int) string { rs := []rune(str) rl := len(rs) end := 0 if start < 0 { start = rl - 1 + start } end = start + length
Go语言按字节截取字符串的方法

本文实例讲述了Go语言按字节截取字符串的方法.分享给大家供大家参考.具体实现方法如下: 复制代码代码如下: // 按字节截取字符串 utf-8不乱码 func SubstrByByte(str string, length int) string { bs := []byte(str)[:length] bl := 0 for i:=len(bs)-1; i>=0; i-- { switch { case bs[i] >= 0 &
go语言按显示长度截取字符串的方法

本文实例讲述了go语言按显示长度截取字符串的方法.分享给大家供大家参考.具体分析如下: 根据显示长度截取字符串,之前php用的utf8编码,10个英文和10个汉字的显示长度差距太大,按字节截取的话又会出错出现截取半个汉字的情况,所以写了这两个函数. 这两天在折腾golang,所以就用golang重写了着连个函数.代码如下: 复制代码代码如下: package main import ( "fmt" ) func main() { fmt.Println(show_st
Golang中文字符串截取函数实现原理

在golang中可以通过切片截取一个数组或字符串,但是当截取的字符串是中文时,可能会出现的问题是:由于中文一个字不只是由一个字节组成,所以直接通过切片可能会把一个中文字的编码截成两半,结果导致最后一个字符是乱码. 例如: 想要截取前四个字 name := "我是胡八一" fmt.Println("name[:4] = ",name[:4]) 执行后得到的结果会是这样的: name[:4] = 我? 解决方法: 先将其转为[]rune,再截取后,转会string na
Go 高效截取字符串的一些思考

最近我在Go Forum中发现了String size of 20 character的问题,"hollowaykeanho" 给出了相关的答案,而我从中发现了截取字符串的方案并非最理想的方法,因此做了一系列实验并获得高效截取字符串的方法,这篇文章将逐步讲解我实践的过程. 字节切片截取这正是 "hollowaykeanho" 给出的第一个方案,我想也是很多人想到的第一个方案,利用 go 的内置切片语法截取字符串: s := "abcdef" f
标题过长使用javascript按字节截取字符串

做为一个前端开发人员在网页展示中经常会碰到,标题过长,需要截取字符串,用CSS的实现的话各种兼容问题,各种坑. 让后台程序截一下,又各种推托,让后台按字节截一下更是和要了后台老命一样,最后可能只会安字符长度给你截一下,最后不好看,对不齐,还是回头整CSS.调兼容: 有以上有感触的前端同学默默点个赞吧. 最近接触一个项目,后台只提供接口(json),所有页面的数据渲染,数据绑定都都交给了前端.终于,不考虑SEO,页面所有的主动权到偶的手中了,不经意间就碰到字节截取老问题了. 网络上流传一个Java
Golang 语言高效使用字符串的方法

01介绍在 Golang 语言中,string 类型的值是只读的,不可以被修改.如果需要修改,通常的做法是对原字符串进行截取和拼接操作,从而生成一个新字符串,但是会涉及内存分配和数据拷贝,从而有性能开销.本文我们介绍在 Golang 语言中怎么高效使用字符串. 02字符串的数据结构在 Golang 语言中,字符串的值存储在一块连续的内存空间,我们可以把存储数据的内存空间看作一个字节数组,字符串在 runtime 中的数据结构是一个结构体 stringStruct,该结构体包含两个字段,分别是
Thinkphp模板中截取字符串函数简介

在php中截取字符串的函数有很多,而在thinkphp中也可以直接使用php的函数,本文给大家简单的介绍thinkPHP模板中截取字符串的具体用法,希望能对各位有所帮助. 对于英文字符可使用如下形式: 复制代码代码如下: {$vo.title|substr=0,5} 如果是中文字符thinkphp提供了msubstr,用法如下: 复制代码代码如下: function msubstr($str, $start=0, $length, $charset="utf-8″, $suffix=true
正则表达式截取字符串的方法技巧

有这么一段字符串: [数字]字符串结果取 a=数字 b=字符串截取方法1: int a = Convert.ToInt32(txt1.Text.Trim().Replace('[', ']').Split(']')[1]); string b = txt1.Text.Trim().Replace('[', ']').Split(']')[2]; 截取方法2: string str = "[数字]字符串"; Regex reg = new Regex(@" ([^]+)
C#几种截取字符串的方法小结

1.根据单个分隔字符用split截取例如复制代码代码如下: string st="GT123_1"; string[] sArray=st.split("_"); 即可得到sArray[0]="GT123",sArray[1]="1"; 2.利用多个字符来分隔字符串例如复制代码代码如下: string str = "GTAZB_JiangjBen_123";string[] sArray = s
用javascript实现截取字符串包含中文处理的函数

1.substring 方法定义和用法 substring 方法用于提取字符串中介于两个指定下标之间的字符. 语法 stringObject.substring(start,stop) 参数描述 start 必需.一个非负的整数,规定要提取的子串的第一个字符在 stringObject 中的位置. stop 可选.一个非负的整数,比要提取的子串的最后一个字符在 stringObject 中的位置多 1.如果省略该参数,那么返回的子串会一直到字符串的结尾. 返回值一个新的字符串,该字符串值包
JavaScript利用split函数按规定截取字符串(获取邮箱用户名)

一个JavaScript基础技巧,根据一串字串中规定的字符,获取该字符以左或以右的字符串,以本例中的电子邮箱为例,它可以获取邮箱的用户名,而将用户名以外的字符抛弃掉,本实例应该是比较实用的. JavaScript截取字符串 function x(){ var x=document.getElementById("x").value.toString(); var c=x.split("@"); document.getElementById("x"
js截取字符串功能的实现方法

js截取字符串2种方式:substring().slice(),供大家参考,具体内容如下这里给出的例子是时间. css文件: body{ text-align:center} .con{ margin:100px auto; width:800px; height:400px; border:2px solid #336666; border-radius:5px; padding-top: 50px; } <!DOCTYPE html> <html> <head>
SQL截取字符串函数分享

A.截取从字符串左边开始N个字符 Declare @S1 varchar(100) Select @S1='http://www.xrss.cn' Select Left(@S1,4) ------------------------------------ 显示结果: http B.截取从字符串右边开始N个字符(例如取字符www.163.com) Declare @S1 varchar(100) Select @S1='http://www.163.com' Select right(@S1,

Go 高效截取字符串的一些思考

相关推荐

随机推荐