Golang pprof性能测试与分析讲解

2025-04-02 19:40:47

一、性能分析类型

1.CPU性能分析

CPU性能分析是最常见的性能分析类型。启动CPU分析时，运行时每隔10ms中断一次，采集正在运行协程的堆栈信息。

程序运行结束后，可以根据收集的数据，找到最热代码路径。

一个函数在分析阶段出现的次数越多，则该函数的代码路径(code path)花费的时间占总运行时间的比重越大。

2.内存性能分析

内存性能分析记录堆内存分配信息，忽略栈内存的分配。

内存分析启动时，默认每1000次采样1次，这个比例是可以调整的。因为内存性能分析是基于采样的，因此基于内存分析数据来判断程序所有的内存使用情况是很困难的。

3.阻塞性能分析

阻塞性能分析是go特点的。

阻塞性能分析用来记录一个协程用来等待共享资源所花费的时间，这用来判断程序并发瓶颈是很有用。阻塞的场景包括：

在没有缓冲的信道上发送或接受数据。
在空的信道上接受数据或在满的信道上发送数据。
尝试获取一个已被其他协程占用的排他锁。

一般情况下，当所有的 CPU 和内存瓶颈解决后，才会考虑这一类分析。

二、cpu性能分析

1.生成pporf

go 性能分析接口位于runtime/pprof 中：

测试代码：生成5组数据，进行冒泡排序：

main.go

// main.go
package main
import (
	"math/rand"
	"time"
)
func generate(n int) []int {
	rand.Seed(time.Now().UnixNano())
	nums := make([]int, 0)
	for i := 0; i < n; i++ {
		nums = append(nums, rand.Int())
	}
	return nums
}
func bubbleSort(nums []int) {
	for i := 0; i < len(nums); i++ {
		for j := 1; j < len(nums)-i; j++ {
			if nums[j] < nums[j-1] {
				nums[j], nums[j-1] = nums[j-1], nums[j]
			}
		}
	}
}
func main() {
	n := 10
	for i := 0; i < 5; i++ {
		nums := generate(n)
		bubbleSort(nums)
		n *= 10
	}
}

想要度量这段代码的性能，只需要在main函数最前加两行代码：

main()

import (
	"math/rand"
	"os"
	"runtime/pprof"
	"time"
)
func main() {
	pprof.StartCPUProfile(os.Stdout)
	defer pprof.StopCPUProfile()
	n := 10
	for i := 0; i < 5; i++ {
		nums := generate(n)
		bubbleSort(nums)
		n *= 10
	}
}

go run main.go > cpu.pprof

当然也可以将输出直接导入到文件中：

2.分析数据

此时得到cpu.pprof 文件：

go tool pprof -http=:9999 cpu.pprof 如果提升Graphviz没有安装： apt installgraphviz (ubuntu)

访问localhost:9999 得到：

除了在网页中查看外，还可以使用交互式命令进行查看：

go tool pprof cpu.pprof

使用top 查看到 bubbleSort函数占用cpu最多。

还可以使用top --cum，按照cum(累计消耗)排序：

使用help 查看帮助：

三、内存性能分析

下面为一段字符串拼接代码，我们对它进行内存分析：

package main
import (
	"math/rand"
	"github.com/pkg/profile"
)
const letterBytes = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
func randomString(n int) string {
	b := make([]byte, n)
	for i := range b {
		b[i] = letterBytes[rand.Intn(len(letterBytes))]
	}
	return string(b)
}
func concat(n int) string {
	s := ""
	for i := 0; i < n; i++ {
		s += randomString(n)
	}
	return s
}
func main() {
	concat(100)
}

我们使用另外一个性能分析库"github.com/pkg/profile" 它内部封装了 runtime/pprof 接口，使用起来更加简单。

cpu性能分析：

defer profile.Start().Stop()

内存性能分析：

defer profile.Start(profile.MemProfile, profile.MemProfileRate(1)).Stop()

profile包会自动在/tmp目录下生成profile文件

go tool pprof -http=:9999 /tmp/profile575547387/mem.pprof

可以看见concat 消耗了 524 KB, 而randomString消耗了 21KB,为什么相差这么大呢？

因为go中的字符串不可修改，使用+ 连接字符串会导致重新生成新的字符串，将 + 两边的子字符串拷贝到新的字符串去。那这种设计多次字符串拼接的场景该如何优化呢？使用strings.Builder

优化后的代码：

package main
import (
	"math/rand"
	"strings"
	"github.com/pkg/profile"
)
const letterBytes = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
func randomString(n int) string {
	b := make([]byte, n)
	for i := range b {
		b[i] = letterBytes[rand.Intn(len(letterBytes))]
	}
	return string(b)
}
func concat(n int) string {
	sb := new(strings.Builder)
	for i := 0; i < n; i++ {
		sb.WriteString(randomString(n))
	}
	return sb.String()
}
func main() {
	defer profile.Start(profile.MemProfile, profile.MemProfileRate(1)).Stop()
	concat(100)
}

优化后可以看到concat 函数使用了71KB 内存，randomString函数使用了 21kb 内存。

四、benchmark 生成 profile

使用benchmark 进行基准测试时，除了直接查看结果，还可以生成profile

testing支持cpu、mem、block

-cpuprofile=$FILE
-memprofile=$FILE, -memprofilerate=N 调整记录速率为原来的 1/N。
-blockprofile=$FILE

fib_test.go

package fib
import "testing"
func fib(n int) int {
	if n == 0 || n == 1 {
		return n
	}
	return fib(n-2) + fib(n-1)
}
func BenchmarkFib(b *testing.B) {
	for n := 0; n < b.N; n++ {
		fib(30) // run fib(30) b.N times
	}
}

go test -bench=. test/bench/fib -cpuprofile=cpu.pprof

go tool pprof -test cpu.pprof

go tool pprof 支持多种输出格式：

go tool pprof

到此这篇关于Golang pprof性能测试与分析讲解的文章就介绍到这了,更多相关Go pprof性能测试内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Go pprof内存指标含义备忘录及案例分析

最近组内一些Go服务碰到内存相关的问题,所以今天抽时间看了下Go pprof内存指标的含义,为后续查问题做准备. 内容主要来自于Go代码中对这些字段的注释,加自己的理解.理解不对的地方欢迎指正. // https://github.com/golang/go/blob/master/src/runtime/mstats.go#L150 // 总共从OS申请的字节数 // 是下面各种XxxSys指标的总和.包含运行时的heap.stack和其他内部数据结构的总和. // 它是虚拟内存空间.不一定全
Go程序性能优化及pprof使用方法详解

Go 程序的性能优化及 pprof 的使用程序的性能优化无非就是对程序占用资源的优化.对于服务器而言,最重要的两项资源莫过于 CPU 和内存.性能优化,就是在对于不影响程序数据处理能力的情况下,我们通常要求程序的 CPU 的内存占用尽量低.反过来说,也就是当程序 CPU 和内存占用不变的情况下,尽量地提高程序的数据处理能力或者说是吞吐量. Go 的原生工具链中提供了非常多丰富的工具供开发者使用,其中包括 pprof. 对于 pprof 的使用要分成下面两部分来说. Web 程序使用 pprof
Go 库性能分析工具pprof

目录场景 pprof 生成 profile 文件 CPU 性能分析内存性能分析分析 profile 文件 && 优化代码 go tool pprof top 命令 list 命令总结场景我们一般没必要过度优化 Go 程序性能.但是真正需要时,Go 提供的 pprof 工具能帮我们快速定位到问题.比如,我们团队之前有一个服务,在本地和测试环境没问题,一到灰度环境,就报 cpu 负载过高,后经排查,发现某处代码死循环了.我把代码简化成如下: // 处理某些业务,真实的代码中这个死循
golang利用pprof与go-torch如何做性能分析

前言软件开发过程中,项目上线并不是终点.上线后,还要对程序的取样分析运行情况,并重构现有的功能,让程序执行更高效更稳写. golang的工具包内自带pprof功能,使找出程序中占内存和CPU较多的部分功能方便了不少.加上uber的火焰图,可视化显示,让我们在分析程序时更简单明了. pprof有两个包用来分析程序一个是net/http/pprof另一个是runtime/pprof,net/http/pprof只是对runtime/pprof包进行封装并用http暴露出来,如下图源码所示: 使用n
go pprof 的使用操作代码

目录背景 pprof 是什么 gin 框架使用 pprof 火焰图总结背景最近合作开发一个项目,项目部署发现了才跑了没多久,就直接宕机了,查看服务器信息发现在某个时间端内存猛的暴涨了非常多,由于是合作开发的项目,我仔细的检查了自己的拿块代码,都没啥问题,另一个开发也说自己的代码没啥问题. 这没理没据的争论也不是个事,突然想起还有 pprof 这么个东西,正好能用上了.一顿操作下来,总算是找到了问题的根源. pprof 是什么 pprof 是 go 中进行性能分析的工具,可以提供可视化数据
go性能分析工具pprof的用途及使用详解

目录 pprof的用途利用runtime/pprof包实现cpu分析的步骤利用runtime/pprof包实现内存分析的步骤: 利用net/http/pprof包进行性能分析总结 pprof的用途 CPU Profiling:CPU 分析,按照一定的频率采集所监听的应用程序 CPU(含寄存器)的使用情况,可确定应用程序在主动消耗CPU 周期时花费时间的位置 Memory Profiling:内存分析,在应用程序进行堆分配时记录堆栈跟踪,用于监视当前和历史内存使用情况,以及检查内存泄漏 Bl
Golang pprof性能测试与分析讲解

目录一.性能分析类型 1.CPU性能分析 2.内存性能分析 3.阻塞性能分析二.cpu性能分析 1.生成pporf 2.分析数据三.内存性能分析四.benchmark 生成 profile 一.性能分析类型 1.CPU性能分析 CPU性能分析是最常见的性能分析类型.启动CPU分析时,运行时每隔10ms中断一次,采集正在运行协程的堆栈信息. 程序运行结束后,可以根据收集的数据,找到最热代码路径. 一个函数在分析阶段出现的次数越多,则该函数的代码路径(code path)花费的时间占总运行时
GoLang逃逸分析讲解

目录概念逃逸分析准则逃逸分析大致思路概念当一个对象的指针在被多个方法或者线程引用,称为逃逸分析, 逃逸分析决定一个变量分配在堆上还是栈上, 当然是否发生逃逸是由编译器决定的分配栈和堆上变量的问题 1.局部变量在栈上(静态分配),函数执行完毕后,自动被栈回收,导致其他对此变量引用出现painc null 指针异常, 栈用户态实现goroutine 作为执行上下文 2.将变量 new 方式分配在堆上(动态分配),堆上有个特点,变量不会被删除,但是会造成内存异常 // 如下代码导致程序崩
GoLang函数与面向接口编程全面分析讲解

目录一.函数 1. 函数的基本形式 2. 递归函数 3. 匿名函数 4. 闭包 5. 延迟调用defer 6. 异常处理二.面向接口编程 1. 接口的基本概念 2. 接口的使用 3. 接口的赋值 4. 接口嵌入 5. 空接口 6. 类型断言 7. 面向接口编程一.函数 1. 函数的基本形式 // 函数定义:a,b是形参 func add(a int, b int) { a = a + b } var x, y int = 3, 6 add(x, y) // 函数调用:x,y是实参形参是函
golang pprof监控memory block mutex使用指南

目录 profile trace 网页显示如何使用 http 接口暴露的方式 allocs ,heap block mutex 代码生成profile文件的方式总结 profile profile的中文被翻译轮廓,对于计算机程序而言,抛开业务逻辑不谈,它的轮廓是是啥呢?不就是cpu,内存,各种阻塞开销,线程,协程概况这些运行指标或环境.golang语言自带了工具库来帮助我们描述,探测,分析这些指标或者环境信息,让我们来学习它. 在上一篇golang pprof 监控系列(1) —— go
golang pprof 监控系列 go trace统计原理与使用解析

目录引言 go trace 使用统计原理介绍 Goroutine analysis Execution Network wait Sync block,Blocking syscall,Scheduler wait 各种profile 图引言服务监控系列文章服务监控系列视频关于go tool trace的使用,网上有相当多的资料,但拿我之前初学golang的经验来讲,很多资料都没有把go tool trace中的相关指标究竟是统计的哪些方法,统计了哪段区间讲解清楚.所以这篇文章不仅仅
Golang pprof监控之cpu占用率统计原理详解

目录 http 接口暴露的方式程序代码生成profile cpu 统计原理分析线程处理信号的时机内核发送信号的方式采样数据的公平性总结经过前面的几节对pprof的介绍,对pprof统计的原理算是掌握了七八十了,我们对memory,block,mutex,trace,goroutine,threadcreate这些维度的统计原理都进行了分析,但唯独还没有分析pprof 工具是如何统计cpu使用情况的,今天我们来分析下这部分. http 接口暴露的方式还记得 golang pprof监
.Net Core内存回收模式及性能测试对比分析

.NET Core 两种GC模式: Server GC / Workstation GC Server GC : 主要应用于多处理器系统,并且作为ASP.NET Core宿主的默认配置.它会为每个处理器都创建一个GC Heap,并且会并行执行回收操作.该模式的GC可以最大化吞吐量和较好的收缩性.这种模式的特点是初始分配的内存较大,并且尽可能不回收内存,进行回收用时会很耗时,并进行内存碎片整理工作.用一句简单的话说,这个就是贪婪模式,通过尽可能多的获得内存和少回收来得到更好的性能.结果就是高内存使
Java 数组高频考点分析讲解

目录 1.数组理论基础 2.常见考点 1.二分查找 2.移除元素 1.数组理论基础数组是存放在连续内存空间上的相同类型数据的集合,可以通过下标索引的方式获取到下标下对应的数据. 举个栗子(字符数组)~ 可以看到: 1.数组的下标从0开始 2.数组在内存中的地址是连续的所以在删除元素时,只能用覆盖的方式进行. 例如,要删除下标为2的元素~ 就需要将从2之后的元素依次移到前一个,覆盖掉要删除的元素. 所以删除元素并不是将该元素的空间释放了,而是将后面的元素移到前面,覆盖掉要删除的元素,然后将数组
Java 栈与队列超详细分析讲解

目录一.栈(Stack) 1.什么是栈? 2.栈的常见方法 3.自己实现一个栈(底层用一个数组实现) 二.队列(Queue) 1.什么是队列? 2.队列的常见方法 3.队列的实现(单链表实现) 4.循环队列一.栈(Stack) 1.什么是栈? 栈其实就是一种数据结构 - 先进后出(先入栈的数据后出来,最先入栈的数据会被压入栈底) 什么是java虚拟机栈? java虚拟机栈只是JVM当中的一块内存,该内存一般用来存放例如:局部变量当调用函数时,我们会为函数开辟一块内存,叫做栈帧,在 jav
MySQL 案例分析讲解外连接语法

目录前言左连接例 1 右连接例2 作业记录前言外连接可以分为左外连接和右外连接左外连接: 包含左边表的全部行(不管右边的表中是否存在与它们匹配的行),以及右边表中全部匹配的行右外连接: 包含右边表的全部行(不管左边的表中是否存在与它们匹配的行),以及左边表中全部匹配的行左连接左外连接又称为左连接,使用 LEFT OUTER JOIN 关键字连接两个表,并使用 ON 子句来设置连接条件. 左连接的语法格式如下: SELECT <字段名> FROM <表1> LEF