定位并修复 Go 中的内存泄露问题

Go 是一门带 GC 的语言,因此,大家很容易认为它不会有内存泄露问题。 大部分时候确实不会,但如果有些时候使用不注意,也会导致泄露。

本文案例来自谷歌云的代码,探讨如何找到并修复 Go 中的内存泄露。(确切来说是因为资源泄露导致的内存泄露,除了本文介绍的,还有一些其他泄露的情况)

这篇文章回顾了我如何发现内存泄漏、如何修复它,以及我如何修复 Google 示例 Go 代码中的类似问题,以及我们如何改进我们的库以防止将来发生这种情况。

Google Cloud Go 客户端库 [1] 通常在后台使用 gRPC 来连接 Google Cloud API。创建 API 客户端时,库会初始化与 API 的连接,然后保持该连接处于打开状态,直到你调用 Client.Close 。

client, err := api.NewClient()
// Check err.
defer client.Close()

客户端可以安全地同时使用,所以你应该保持相同 Client 直到你的任务完成。但是,如果在应该 Close 的时候不 Close client 会发生什么呢?

会出现内存泄漏。底层连接永远不会被清理。

Google 有一堆 GitHub 自动化机器人来帮助管理数百个 GitHub 存储库。我们的一些机器人通过在 Cloud Run [2] 上运行的 Go 服务器 [3] 代理它们的请求。我们的内存使用看起来像一个经典的锯齿形内存泄漏:

我通过向服务器添加 pprof.Index 处理程序开始调试:

mux.HandleFunc("/debug/pprof/", pprof.Index)

`pprof` [4] 提供运行时 profiling 数据,如内存使用情况。有关更多信息,请参阅 Go 官方博客上的 profiling Go 程序 [5] 。

然后,我在本地构建并启动了服务器:

$ go build
$ PROJECT_ID=my-project PORT=8080 ./serverless-scheduler-proxy

然后向服务器发送一些请求:

for i in {1..5}; do
  curl --header "Content-Type: application/json" --request POST --data '{"name": "HelloHTTP", "type": "testing", "location": "us-central1"}' localhost:8080/v0/cron
  echo " -- $i"
done

确切的有效负载和端点特定于我们的服务器,与本文无关。

为了获得正在使用的内存的基线,我收集了一些初始 pprof 数据:

curl http://localhost:8080/debug/pprof/heap > heap.0.pprof

检查输出,你可以看到一些内存使用情况,但没有什么会立即成为一个大问题(这很好!我们刚刚启动了服务器!):

$ go tool pprof heap.0.pprof
File: serverless-scheduler-proxy
Type: inuse_space
Time: May 4, 2021 at 9:33am (EDT)
Entering interactive mode (type "help" for commands, "o" for options)
(pprof) top10
Showing nodes accounting for 2129.67kB, 100% of 2129.67kB total
Showing top 10 nodes out of 30
      flat  flat%   sum%        cum   cum%
 1089.33kB 51.15% 51.15%  1089.33kB 51.15%  google.golang.org/grpc/internal/transport.newBufWriter (inline)
  528.17kB 24.80% 75.95%   528.17kB 24.80%  bufio.NewReaderSize (inline)
  512.17kB 24.05%   100%   512.17kB 24.05%  google.golang.org/grpc/metadata.Join
         0     0%   100%   512.17kB 24.05%  cloud.google.com/go/secretmanager/apiv1.(*Client).AccessSecretVersion
         0     0%   100%   512.17kB 24.05%  cloud.google.com/go/secretmanager/apiv1.(*Client).AccessSecretVersion.func1
         0     0%   100%   512.17kB 24.05%  github.com/googleapis/gax-go/v2.Invoke
         0     0%   100%   512.17kB 24.05%  github.com/googleapis/gax-go/v2.invoke
         0     0%   100%   512.17kB 24.05%  google.golang.org/genproto/googleapis/cloud/secretmanager/v1.(*secretManagerServiceClient).AccessSecretVersion
         0     0%   100%   512.17kB 24.05%  google.golang.org/grpc.(*ClientConn).Invoke
         0     0%   100%  1617.50kB 75.95%  google.golang.org/grpc.(*addrConn).createTransport

下一步是向服务器发送一堆请求,看看我们是否可以 (1) 重现可能的内存泄漏和 (2) 确定泄漏是什么。

发送 500 个请求:

for i in {1..500}; do
  curl --header "Content-Type: application/json" --request POST --data '{"name": "HelloHTTP", "type": "testing", "location": "us-central1"}' localhost:8080/v0/cron
  echo " -- $i"
done

收集和分析更多 pprof 数据:

$ curl http://localhost:8080/debug/pprof/heap > heap.6.pprof
$ go tool pprof heap.6.pprof
File: serverless-scheduler-proxy
Type: inuse_space
Time: May 4, 2021 at 9:50am (EDT)
Entering interactive mode (type "help" for commands, "o" for options)
(pprof) top10
Showing nodes accounting for 94.74MB, 94.49% of 100.26MB total
Dropped 26 nodes (cum <= 0.50MB)
Showing top 10 nodes out of 101
      flat  flat%   sum%        cum   cum%
   51.59MB 51.46% 51.46%    51.59MB 51.46%  google.golang.org/grpc/internal/transport.newBufWriter
   19.60MB 19.55% 71.01%    19.60MB 19.55%  bufio.NewReaderSize
    6.02MB  6.01% 77.02%     6.02MB  6.01%  bytes.makeSlice
    4.51MB  4.50% 81.52%    10.53MB 10.51%  crypto/tls.(*Conn).readHandshake
       4MB  3.99% 85.51%     4.50MB  4.49%  crypto/x509.parseCertificate
       3MB  2.99% 88.51%        3MB  2.99%  crypto/tls.Client
    2.50MB  2.49% 91.00%     2.50MB  2.49%  golang.org/x/net/http2/hpack.(*headerFieldTable).addEntry
    1.50MB  1.50% 92.50%     1.50MB  1.50%  google.golang.org/grpc/internal/grpcsync.NewEvent
       1MB     1% 93.50%        1MB     1%  runtime.malg
       1MB     1% 94.49%        1MB     1%  encoding/json.(*decodeState).literalStore

google.golang.org/grpc/internal/transport.newBufWriter 使用大量内存真的很突出!这是泄漏与什么相关的第一个迹象:gRPC。查看我们的应用程序源代码,我们唯一使用 gRPC 的地方是 Google Cloud Secret Manager [6] :

client, err := secretmanager.NewClient(ctx)
if err != nil {
    return nil, fmt.Errorf("failed to create secretmanager client: %v", err)
}

在每个请求创建 client 时,我们没有调用 client.Close() !所以,我添加了一个 Close 调用,问题就消失了:

defer client.Close()

我提交了修复,然后 自动部署 [7] ,锯齿立即消失了!

大约在同一时间,用户在我们的 Cloud 的 Go 示例存储库中 [8] 提交了一个问题,其中包含 cloud.google.com 上 [9] 文档的大部分 Go 示例。用户注意到我们忘记调用 client.Close 了。

我曾多次看到同样的事情出现,所以我决定调查整个 repo。

我开始粗略估计有多少受影响的文件。使用 grep ,我们可以获得包含 NewClient 样式调用的所有文件的列表,然后将该列表传递给另一个调用 grep 以仅列出不包含 Close 的文件,同时忽略测试文件:

$ grep -L Close $(grep -El 'New[^(]*Client' **/*.go) | grep -v test

竟然有 207 个文件……就上下文而言,我们 .go 在 GoogleCloudPlatform/golang-samples [10] 存储库中有大约 1300 个文件。

考虑到问题的规模,我认为一些自动化是 值得的 [11] 。我不想写一个完整的 Go 程序来编辑文件,所以我使用 Bash:

$ grep -L Close $(grep -El 'New[^(]*Client' **/*.go) | grep -v test | xargs sed -i '/New[^(]*Client/,/}/s/}/}\ndefer client.Close()/'

它是完美的吗?不。它对工作量有很大的影响吗?是的!

第一部分(直到 test )与上面完全相同——获取所有可能受影响的文件的列表(那些似乎创建了 Client 但从没调用 Close 的文件)。

然后,我将该文件列表传递给 sed 进行实际编辑。 xargs 调用你给它的命令,每一行都以 stdin 作为参数传递给给定的命令。

要理解该 sed 命令,查看 golang-samples repo 示例是什么样子有助于理解(省略导入和客户端初始化后的所有内容):

// accessSecretVersion accesses the payload for the given secret version if one
// exists. The version can be a version number as a string (e.g. "5") or an
// alias (e.g. "latest").
func accessSecretVersion(w io.Writer, name string) error {
    // name := "projects/my-project/secrets/my-secret/versions/5"
    // name := "projects/my-project/secrets/my-secret/versions/latest"
    // Create the client.
    ctx := context.Background()
    client, err := secretmanager.NewClient(ctx)
    if err != nil {
        return fmt.Errorf("failed to create secretmanager client: %v", err)
    }
    // ...
}

在高层次上,我们初始化客户端并检查是否有错误。每当你检查错误时,都会有一个右花括号 ( } )。我使用这些信息来自动化编辑。

但是,该 sed 命令仍然很笨拙:

sed -i '/New[^(]*Client/,/}/s/}/}\ndefer client.Close()/'

-i 表示直接编辑文件。这不是问题,因为代码用 git 管理了。

接下来,我使用 s 命令在检查错误 defer client.Close() 后假定的右花括号 ( } )之后插入。

但是,我不想替换每个 } ,我只想要在 调用 NewClient 后 的 第一个 。要做到这一点,你可以给一个 地址范围 [12] 的 sed 搜索。

地址范围可以包括在应用接下来的任何命令之前要匹配的开始和结束模式。在这种情况下,开始是 /New[^(]*Client/ ,匹配 NewClient 类型调用,结束(由 a 分隔 , )是 /}/ ,匹配下一个大括号。这意味着我们的搜索和替换仅适用于调用 NewClient 和结束大括号之间!

通过了解上面的错误处理模式, if err != nil 条件的右大括号正是我们想要插入 Close 调用的位置。

一旦我自动编辑了所有示例文件,我用 goimports 开始修复格式。然后,我检查了每个编辑过的文件,以确保它做了正确的事情:

  • 在服务器应用程序中,我们应该关闭客户端,还是应该保留它以备将来的请求使用?
  • 是 Client 实际的名字 client 还是别的什么?
  • 是否有一个以上的 Client 调用了 Close ?

完成后,只剩下 180 个已编辑的文件 [13] 。

最后一项工作是努力使其不再发生在用户身上。我们想到了几种方法:

  1. 更好的示例代码;
  2. 更好的 GoDoc。我们更新了库生成器,在生成库时加上注释,告知 client 需要调用 Close;
  3. 更好的库。有没有办法可以自动 Close 客户端?Finalizers?知道何能做得更好吗?欢迎在 https://github.com/googleapis/google-cloud-go/issues/4498 上交流;

我希望你对 Go、内存泄漏 pprof 、gRPC 和 Bash 有所了解。我很想听听你关于发现的内存泄漏以及修复它们的方法的故事!如果你对我们如何改进我们的 库 [14] 或 示例 [15] 有任何想法,请通过提交 issue 告诉我们。

参考资料

[1]
Google Cloud Go 客户端库: https://github.com/googleapis/google-cloud-go

[2]
Cloud Run: https://cloud.google.com/run/docs/quickstarts/build-and-deploy/go

[3]
Go 服务器: https://github.com/googleapis/repo-automation-bots/tree/main/serverless-scheduler-proxy

[4]
pprof: https://pkg.go.dev/net/http/pprof

[5]
profiling Go 程序: https://go.dev/blog/pprof

[6]
Google Cloud Secret Manager: https://cloud.google.com/secret-manager/docs/quickstart

[7]
自动部署: https://cloud.google.com/build/docs/deploying-builds/deploy-cloud-run

[8]
Cloud 的 Go 示例存储库中: https://github.com/GoogleCloudPlatform/golang-samples

[9]
cloud.google.com 上: https://cloud.google.com/

[10]
GoogleCloudPlatform/golang-samples: https://github.com/GoogleCloudPlatform/golang-samples

[11]
值得的: https://xkcd.com/1205/

[12]
地址范围: https://www.gnu.org/software/sed/manual/html_node/Addresses.html

[13]
180 个已编辑的文件: https://github.com/GoogleCloudPlatform/golang-samples/pull/2080

[14]
库: https://github.com/googleapis/google-cloud-go

[15]
示例: https://github.com/GoogleCloudPlatform/golang-samples

到此这篇关于定位并修复 Go 中的内存泄露的文章就介绍到这了,更多相关定位Go内存泄露内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Golang 内存模型详解(一)

    开始之前 首先,这是一篇菜B写的文章,可能会有理解错误的地方,发现错误请斧正,谢谢. 为了治疗我的懒癌早期,我一次就不写得太多了,这个系列想写很久了,每次都是开了个头就没有再写.这次争取把写完,弄成一个系列. 此 nil 不等彼 nil 先声明,这个标题有标题党的嫌疑. Go 的类型系统是比较奇葩的,nil 的含义跟其它语言有些差别,这里举个例子(可以直接进入 http://play.golang.org/p/ezFhXX0dnB 运行查看结果): 复制代码 代码如下: package main

  • 解决MongoDB占用内存过大频繁死机的方法详解

    从MongoDB 3.4开始,默认的WiredTiger内部缓存大小是以下两者中的较大者: 50%(RAM-1 GB),或 256 MB 例如,在总共有4GB RAM的系统上,WiredTiger缓存将使用1.5GB RAM(). 相反,总内存为1.25 GB的系统将为WiredTiger缓存分配256 MB,因为这是总RAM的一半以上减去1 GB(). // 4GB 0.5 * (4 GB - 1 GB) = 1.5 GB // 1.25GB 0.5 * (1.25 GB - 1 GB) =

  • 解决golang内存溢出的方法

    最近在项目中出现golang内存溢出的问题,master刚开始运行时只有10多M,运行几天后,竟然达到了10多个G.而且到凌晨流量变少内存也没有明显降低,内存状态呈现一种很不健康的曲线. 像这种情况肯定是golang内存溢出了,为此我持续排查了两天,终于找到问题所在,特此记录下. 准备工作 一台较好的环境测试机,单台运行无污染. 压测工具,无论服务是http还是websocket服务,都必须准备好压测工具模拟最真实的用户场景. 将master引入net/http/pprof包,通过http访问获

  • MongoDB 内存使用情况分析

    MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的.他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型.Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引. 先 ps 一下看看.

  • 定位并修复 Go 中的内存泄露问题

    Go 是一门带 GC 的语言,因此,大家很容易认为它不会有内存泄露问题. 大部分时候确实不会,但如果有些时候使用不注意,也会导致泄露. 本文案例来自谷歌云的代码,探讨如何找到并修复 Go 中的内存泄露.(确切来说是因为资源泄露导致的内存泄露,除了本文介绍的,还有一些其他泄露的情况) 这篇文章回顾了我如何发现内存泄漏.如何修复它,以及我如何修复 Google 示例 Go 代码中的类似问题,以及我们如何改进我们的库以防止将来发生这种情况. Google Cloud Go 客户端库 [1] 通常在后台

  • 理解Java中的内存泄露及解决方法示例

    本文详细地介绍了Java内存管理的原理,以及内存泄露产生的原因,同时提供了一些列解决Java内存泄露的方案,希望对各位Java开发者有所帮助. Java内存管理机制 在C++ 语言中,如果需要动态分配一块内存,程序员需要负责这块内存的整个生命周期.从申请分配.到使用.再到最后的释放.这样的过程非常灵活,但是却十分繁琐,程序员很容易由于疏忽而忘记释放内存,从而导致内存的泄露. Java 语言对内存管理做了自己的优化,这就是垃圾回收机制. Java 的几乎所有内存对象都是在堆内存上分配(基本数据类型

  • 浅谈Java编程中的内存泄露情况

    必须先要了解的 1.c/c++是程序员自己管理内存,Java内存是由GC自动回收的. 我虽然不是很熟悉C++,不过这个应该没有犯常识性错误吧. 2.什么是内存泄露? 内存泄露是指系统中存在无法回收的内存,有时候会造成内存不足或系统崩溃. 在C/C++中分配了内存不释放的情况就是内存泄露. 3.Java存在内存泄露 我们必须先承认这个,才可以接着讨论.虽然Java存在内存泄露,但是基本上不用很关心它,特别是那些对代码本身就不讲究的就更不要去关心这个了. Java中的内存泄露当然是指:存在无用但是垃

  • Java语言中的内存泄露代码详解

    Java的一个重要特性就是通过垃圾收集器(GC)自动管理内存的回收,而不需要程序员自己来释放内存.理论上Java中所有不会再被利用的对象所占用的内存,都可以被GC回收,但是Java也存在内存泄露,但它的表现与C++不同. JAVA中的内存管理 要了解Java中的内存泄露,首先就得知道Java中的内存是如何管理的. 在Java程序中,我们通常使用new为对象分配内存,而这些内存空间都在堆(Heap)上. 下面看一个示例: public class Simple { public static vo

  • Java中的内存泄露问题和解决办法

    目录 为什么会产生内存泄漏? 内存泄漏对程序的影响? 如何检查和分析内存泄漏? 常见的内存泄漏及解决方法 1.单例造成的内存泄漏 2.非静态内部类创建静态实例造成的内存泄漏[已无] 3.Handler造成的内存泄漏 4.线程造成的内存泄漏 5.资源未关闭造成的内存泄漏 6.使用ListView时造成的内存泄漏 7.集合容器中的内存泄露 8.WebView造成的泄露 如何避免内存泄漏? 总结 (Memory Leak,内存泄漏) 为什么会产生内存泄漏? 当一个对象已经不需要再使用本该被回收时,另外

  • 一文搞懂JavaScript中的内存泄露

    目录 什么是内存泄漏 怎么检测内存泄漏 Performance Memory 内存泄漏的场景 垃圾回收算法 引用计数 循环引用 标记清除 闭包是内存泄漏吗 总结 以前我们说的内存泄漏,通常发生在后端,但是不代表前端就不会有内存泄漏.特别是当前端项目变得越来越复杂后,前端也逐渐称为内存泄漏的高发区.本文就带你认识一下Javascript的内存泄漏. 什么是内存泄漏 什么是内存?内存其实就是程序在运行时,系统为其分配的一块存储空间.每一块内存都有对应的生命周期: 内存分配:在声明变量.函数时,系统分

  • C语言中的内存泄露 怎样避免与检测

    有些程序并不需要管理它们的动态内存的使用.当需要内存时,它们简单地通过分配来获得,从来不用担心如何释放它.这类程序包括编译器和其他一些运行一段固定的(或有限的)时间然后终止的程序.当这种类型的程序终止时,所有内存会被自动回收.细心查验每块内存是否需要回收纯属浪费时间,因为它们不会再被使用. 其他程序的生存时间要长一点.有些工具如日历管理器.邮件工具以及操作系统本事经常需要数日及至数周连续运行,并需要管理动态内存的分配和回收.由于C语言通常并不使用垃圾回收器(自动确认并回收不再使用的内存块),这些

  • Android编程中避免内存泄露的方法总结

    Android的应用被限制为最多占用16m的内存,至少在T-Mobile G1上是这样的(当然现在已经有几百兆的内存可以用了--译者注).它包括电话本身占用的和开发者可以使用的两部分.即使你没有占用全部内存的打算,你也应该尽量少的使用内存,以免别的应用在运行的时候关闭你的应用.Android能在内存中保持的应用越多,用户在切换应用的时候就越快.作为我的一项工作,我仔细研究了Android应用的内存泄露问题,大多数情况下它们是由同一个错误引起的,那就是对一个上下文(Context)保持了长时间的引

  • 权威JavaScript 中的内存泄露模式

    作者:Abhijeet Bhattacharya (abhbhatt@in.ibm.com), 系统软件工程师, IBM IndiaKiran Shivarama Shivarama Sundar (kisundar@in.ibm.com), 系统软件工程师, IBM India 2007 年 5 月 28 日 如果您知道内存泄漏的起因,那么在 JavaScript 中进行相应的防范就应该相当容易.在这篇文章中,作者 Kiran Sundar 和 Abhijeet Bhattacharya 将带

  • 实例详解Java中ThreadLocal内存泄露

    案例与分析 问题背景 在 Tomcat 中,下面的代码都在 webapp 内,会导致WebappClassLoader泄漏,无法被回收. public class MyCounter { private int count = 0; public void increment() { count++; } public int getCount() { return count; } } public class MyThreadLocal extends ThreadLocal<MyCount

随机推荐