一文搞懂Go Exec 僵尸与孤儿进程

2025-04-07 02:29:32

场景一

我们来看看下面两个脚本会产生什么问题：

创建两个 shell 脚本

start.sh

#!/bin/sh
sh sub.sh

sub.sh

#!/bin/sh
n=0
while [ $n -le 100 ]
do
  echo $n
  let n++
  sleep 1
done

执行脚本

输出结果

$ ./start.sh
0
1
2
...

进程关系

查看进程信息

ps -j

USER   PID    PPID   PGID   SESS  JOBC  STAT   TT     TIME     COMMAND
root   31758  31346  31758  0     1     S+     s000   0:00.00  /bin/sh ./start.sh
root   31759  31758  31758  0     1     S+     s000   0:00.01  sh sub.sh

sub.sh 的父进程（PPID）为 start.sh 的进程id（PID）
sub.sh 和 start.sh 两个进程的 PGID 是同一个，（属一个进程组）。

删除 `start.sh` 的进程

kill -9 31758

# 再查看进程组
ps -j

## 返回
USER     PID       PPID  PGID     SESS  JOBC   STAT    TT       TIME     COMMAND
root     31759     1     31758    0      0     S       s000     0:00.03  sh sub.sh

start.sh 进程不在了
sub.sh 进程还在执行
sub.sh 进程的 PID 变成了 1

问题1：

那sub.sh 这个进程现在属于什么？

场景二

假设sub.sh 是实际的应用， start.sh 是应用的启动脚本。

那么，golang 是如何管理他们的呢？我们继续看看下面关于golang的场景。

在上面两个脚本的基础上，我们用golang 的 os/exec库去调用 start.sh脚本

package main

import (
	"context"
	"log"
	"os"
	"os/exec"
	"time"
)

func main()  {
	cmd := exec.CommandContext(context.Background(), "./start.sh")

  // 将 start.sh 和 sub.sh 移到当前目录下
	cmd.Dir = "/Go/src/go-code/cmd/"
	cmd.Stdout = os.Stdout
	cmd.Stderr = os.Stderr

	if err := cmd.Start(); err != nil {
		log.Printf("cmd.Start error %+v \n", err)
	}

	for {
		select {
		default:
			log.Println(cmd.Process.Pid)
			time.Sleep(2 * time.Second)
		}
	}
}

执行程序

go run ./main.go

查看进程

ps -j

USER   PID    PPID   PGID     SESS  JOBC  STAT   TT      TIME     COMMAND
root   45458  45457  45457    0     0     Ss+    s004    0:00.03  ...___1go_build_go_code_cmd
root   45462  45458  45457    0     0     S+     s004    0:00.01  /bin/sh ./start.sh
root   45463  45462  45457    0     0     S+     s004    0:00.03  sh sub.sh

发现 go 、 start.sh 、sub.sh 三个进程为同一个进程组（同一个 PGID）

父子关系为： main.go -> start.sh -> sub.sh

删除 `start.sh` 的进程

实际场景，有可能启动程序挂了，导致我们无法监听到执行程序的情况，删除start.sh进程，模拟下场景：

kill -9 45462

再查看进程

ps -j

USER   PID    PPID   PGID     SESS  JOBC  STAT   TT      TIME     COMMAND
root   45458  45457  45457    0     0     Ss+    s004    0:00.03  ...___1go_build_go_code_cmd
root   45462  1      45457    0     0     S+     s004    0:00.01  (bash)
root   45463  45462  45457    0     0     S+     s004    0:00.03  sh sub.sh

发现没， start.sh 的 PPID 为1
即使 start.sh 的 PPID变成了1 ，log.Println(cmd.Process.Pid) 还持续的输出 .

问题2:

那如果 PPID为1 ，golang程序不就无法管理了吗？即使 sub.sh 退出也不知道了，那要如何处理？

问题分析

两个场景中，都有一个共同的点，就是 PPID 为1，这妥妥的成为没人要的娃了——孤儿进程
场景二中，如果 cmd的没有进程没有被回收，go程序也无法管理，那么start.sh就成为了占着茅坑不拉屎的子进程——僵尸进程

那究竟什么是孤儿进程 和 僵尸进程？

孤儿进程

在类 UNIX 操作系统中，孤儿进程（Orphan Process）指：是在其父进程执行完成或被终止后仍继续运行的一类进程。

为避免孤儿进程退出时无法释放所占用的资源而僵死，任何孤儿进程产生时都会立即为系统进程 init 或 systemd 自动接收为子进程，这一过程也被称为收养。在此需注意，虽然事实上该进程已有init作为其父进程，但由于创建该进程的进程已不存在，所以仍应称之为孤儿进程。孤儿进程会浪费服务器的资源，甚至有耗尽资源的潜在危险。

解决&预防

终止机制：强制杀死孤儿进程（最常用的手段）；
再生机制：服务器在指定时间内查找调用的客户端，若找不到则直接杀死孤儿进程；
超时机制：给每个进程指定一个确定的运行时间，若超时仍未完成则强制终止之。若有需要，亦可让进程在指定时间耗尽之前申请延时。
进程组：因为父进程终止或崩溃都会导致对应子进程成为孤儿进程，所以也无法预料一个子进程执行期间是否会被“遗弃”。有鉴于此，多数类UNIX系统都引入了进程组以防止产生孤儿进程。

僵尸进程

在类 UNIX 操作系统中，僵尸进程（zombie process）指：完成执行（通过exit系统调用，或运行时发生致命错误或收到终止信号所致），但在操作系统的进程表中仍然存在其进程控制块，处于"终止状态"的进程。
正常情况下，进程直接被其父进程 wait 并由系统回收。而僵尸进程与正常进程不同，kill 命令对僵尸进程无效，并且无法回收，从而导致资源泄漏。

解决&预防

收割僵尸进程的方法是通过 kill 命令手工向其父进程发送SIGCHLD信号。如果其父进程仍然拒绝收割僵尸进程，则终止父进程，使得 init 进程收养僵尸进程。init 进程周期执行 wait 系统调用收割其收养的所有僵尸进程。

查看进程详情

# 列出进程
ps -l

USER：进程的所属用户
PID：进程的进程ID号
RSS：进程占用的固定的内存量 (Kbytes)
S：查看进程状态
CMD：进程对应的实际程序

进程状态（S）

R：运行 Runnable (on run queue) 正在运行或在运行队列中等待
S：睡眠 Sleeping 休眠中，受阻，在等待某个条件的形成或接受到信号
I：空闲 Idle
Z：僵死 Zombie（a defunct process) 进程已终止，但进程描述符存在，直到父进程调用wait4()系统调用后释放
D：不可中断 Uninterruptible sleep (ususally IO) 收到信号不唤醒和不可运行，进程必须等待直到有中断发生
T：终止 Terminate 进程收到SIGSTOP、SIGSTP、 SIGTIN、SIGTOU信号后停止运行运行
P：等待交换页
W：无驻留页 has no resident pages 没有足够的记忆体分页可分配
X：死掉的进程

Go解决方案

采用杀掉进程组（kill process group，而不是只 kill 父进程，在 Linux 里面使用的是 kill -- -PID）与进程wait方案，结果如下：

package main

import (
	"context"
	"log"
	"os"
	"os/exec"
	"syscall"
	"time"
)

func main() {

	ctx := context.Background()
	cmd := exec.CommandContext(ctx, "./start.sh")

        // 设置进程组
	cmd.SysProcAttr = &syscall.SysProcAttr{
		Setpgid: true,
	}

	cmd.Dir = "/Users/Wilbur/Project/Go/src/go-code/cmd/"
	cmd.Stdout = os.Stdout
	cmd.Stderr = os.Stderr

	if err := cmd.Start(); err != nil {
		log.Printf("cmd.Start error %+v \n", err)
	}

        // 监听进程wait
	errCmdCh := make(chan error, 1)
	go func() {
		errCmdCh <- cmd.Wait()
	}()

	for {
		select {
		case <-ctx.Done():
			log.Println("ctx.done")
			pid := cmd.Process.Pid
			if err := syscall.Kill(-1*pid, syscall.SIGKILL); err != nil {
				return
			}
		case err := <-errCmdCh:
			log.Printf("errCmdCh error %+v \n", err)
			return
		default:
			log.Println(cmd.Process.Pid)
			time.Sleep(2 * time.Second)
		}
	}
}

剖析 cmd.Wait() 源码

在 os/exec_unix下：

var (
	status syscall.WaitStatus
	rusage syscall.Rusage
	pid1   int
	e      error
)

for {
	pid1, e = syscall.Wait4(p.Pid, &status, 0, &rusage)
	if e != syscall.EINTR {
		break
	}
}

进行了 syscall.Wait4对系统监听，正如"僵死 Zombie（a defunct process) 进程已终止，但进程描述符存在，直到父进程调用wait4()系统调用后释放"，所说一致。

总结

严格地来说，僵尸进程并不是问题的根源，罪魁祸首是产生出大量僵尸进程的那个父进程。

因此，当我们寻求如何消灭系统中大量的僵尸进程时，更应该是在实际的开发过程中，思考如何避免僵尸进程的产生。

参考：

https://pkg.go.dev/syscall

https://cs.opensource.google/go/go/+/refs/tags/go1.17.7:src/syscall/syscall_linux.go;l=279

https://pkg.go.dev/os/exec

到此这篇关于一文搞懂Go Exec 僵尸与孤儿进程的文章就介绍到这了,更多相关Go Exec 僵尸与孤儿进程内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

golang如何实现mapreduce单进程版本详解

前言 MapReduce作为hadoop的编程框架,是工程师最常接触的部分,也是除去了网络环境和集群配置之外对整个Job执行效率影响很大的部分,所以很有必要深入了解整个过程.元旦放假的第一天,在家没事干,用golang实现了一下mapreduce的单进程版本,github地址.处理对大文件统计最高频的10个单词,因为功能比较简单,所以设计没有解耦合. 本文先对mapreduce大体概念进行介绍,然后结合代码介绍一下,如果接下来几天有空,我会实现一下分布式高可用的mapreduce版本.
go语言通过管道连接两个命令行进程的方法

本文实例讲述了go语言通过管道连接两个命令行进程的方法.分享给大家供大家参考.具体实现方法如下: 复制代码代码如下: package main import ( "os" "os/exec" "fmt" "flag" "strings" ) func main() { generator := exec.Command("cmd1") consumer := exe
go语言使用pipe读取子进程标准输出的方法

本文实例讲述了go语言使用pipe读取子进程标准输出的方法.分享给大家供大家参考.具体如下: 其核心代码如下: 复制代码代码如下: cmd := exec.Command("cmd", "args") stdout, err := cmd.StdoutPipe() cmd.Start() r := bufio.NewReader(stdout) line, _, err := r.ReadLine() 希望本文所述对大家的Go语言程序设计有所帮助.
golang守护进程用法示例

本文实例讲述了golang守护进程用法.分享给大家供大家参考,具体如下: 用node写了一个socket后台服务,可是有时候会挂,node一个异常就game over了,所以写了一个守候. 复制代码代码如下: package main import ( "log" "os" "os/exec" "time" ) func main() { lf,
golang 后台进程的启动和停止操作

启动命令我们先来个非后台运行的启动命令 func init() { startCmd := &cobra.Command{ Use: "start", Short: "Start Gonne", Run: func(cmd *cobra.Command, args []string) { startHttp() }, } startCmd.Flags().BoolVarP(&daemon, "deamon", "d&q
一文搞懂Go Exec 僵尸与孤儿进程

目录场景一创建两个shell脚本执行脚本进程关系删除 start.sh 的进程问题1: 场景二执行程序查看进程删除 start.sh 的进程再查看进程问题2: 问题分析孤儿进程解决&预防僵尸进程解决&预防查看进程详情进程状态(S) Go解决方案总结参考: 最近,使用 golang 去管理本地应用的生命周期,期间有几个有趣的点,今天就一起看下. 场景一我们来看看下面两个脚本会产生什么问题: 创建两个 shell 脚本 start.sh #!/bin/s
一文搞懂Python中的进程,线程和协程

目录 1.什么是并发编程 2.进程与多进程 3.线程与多线程 4.协程与多协程 5.总结 1.什么是并发编程并发编程是实现多任务协同处理,改善系统性能的方式.Python中实现并发编程主要依靠进程(Process):进程是计算机中的程序关于某数据集合的一次运行实例,是操作系统进行资源分配的最小单位线程(Thread):线程被包含在进程之中,是操作系统进行程序调度执行的最小单位协程(Coroutine):协程是用户态执行的轻量级编程模型,由单一线程内部发出控制信号进行调度直接上一张图看看
一文搞懂SQL注入攻击

目录 1. 前言 2. SQL注入简介 (1)SQL语言 (2)SQL注入 3. SQL注入步骤 (1)发现漏洞 (2)信息收集 (3)攻击Web系统(猜解用户名和密码) (4)获取管理员权限 4. 防范SQL注入 (1)使用参数化查询或存储过程 (2)用户输入检测 (3)SQL语法分析 (4)其他 1. 前言随着互联网的发展和普及,网络安全问题越来越突出,网络在为用户提供越来越多服务的同时,也要面对各类越来越复杂的恶意攻击.SQL注入(SQL Injection)攻击是其中最普遍的安全隐患之
一文搞懂ES6中的Map和Set

Map Map对象保存键值对.任何值(对象或者原始值) 都可以作为一个键或一个值.构造函数Map可以接受一个数组作为参数. Map和Object的区别 •一个Object 的键只能是字符串或者 Symbols,但一个Map 的键可以是任意值. •Map中的键值是有序的(FIFO 原则),而添加到对象中的键则不是. •Map的键值对个数可以从 size 属性获取,而 Object 的键值对个数只能手动计算. •Object 都有自己的原型,原型链上的键名有可能和你自己在对象上的设置的键名产生冲突.
一文搞懂hashCode()和equals()方法的原理

Java中的超类java.lang.Object 有两个非常重要的方法: public boolean equals(Object obj) public int hashCode() 这两个方法最开发者来说是十分重要的,必须清楚的理解,但实际上,甚至很多经验丰富的Java开发者有时候也没有真正搞清楚这两个方法的使用和原理.当我们自定义了对象,并且想要将自定义的对象加到Map中时,我们就必须对自定义的对象重写这两个方法,才能正确使用Map.我们接下来将用这篇文章指出在使用hashcode和equ
一文搞懂c# await,async执行流

昨天有朋友在公众号发消息说看不懂await,async执行流,其实看不懂太正常了,因为你没经过社会的毒打,没吃过牢饭就不知道自由有多重要,没生过病就不知道健康有多重要,没用过ContinueWith就不知道await,async有多重要,下面我举两个案例佐证一下? 一:案例一 [嵌套下的异步] 写了这么多年的程序,相信大家都知道连接数据库少不了这几个对象,DbConnection,DbCommand,DbDataReader等等..先来看看ContinueWith在连接数据库时嵌套过深的尴尬.
一文搞懂C++ 动态内存

了解动态内存在 C++ 中是如何工作的是成为一名合格的 C++ 程序员必不可少的.C++ 程序中的内存分为两个部分: 栈:在函数内部声明的所有变量都将占用栈内存. 堆:这是程序中未使用的内存,在程序运行时可用于动态分配内存. 很多时候,您无法提前预知需要多少内存来存储某个定义变量中的特定信息,所需内存的大小需要在运行时才能确定. 在 C++ 中,您可以使用特殊的运算符为给定类型的变量在运行时分配堆内的内存,这会返回所分配的空间地址.这种运算符即new 运算符. 如果您不再需要动态分配的内存空间,
一文搞懂MySQL预编译

1.预编译的好处大家平时都使用过JDBC中的PreparedStatement接口,它有预编译功能.什么是预编译功能呢?它有什么好处呢? 当客户发送一条SQL语句给服务器后,服务器总是需要校验SQL语句的语法格式是否正确,然后把SQL语句编译成可执行的函数,最后才是执行SQL语句.其中校验语法,和编译所花的时间可能比执行SQL语句花的时间还要多. 如果我们需要执行多次insert语句,但只是每次插入的值不同,MySQL服务器也是需要每次都去校验SQL语句的语法格式,以及编译,这就浪费了太多的时
一文搞懂JAVA 修饰符

Java语言提供了很多修饰符,主要分为以下两类: 访问修饰符非访问修饰符修饰符用来定义类.方法或者变量,通常放在语句的最前端.我们通过下面的例子来说明: public class ClassName { // ... } private boolean myFlag; static final double weeks = 9.5; protected static final int BOXWIDTH = 42; public static void main(String[] argum
一文搞懂JAVA 枚举（enum）

Java 枚举是一个特殊的类,一般表示一组常量,比如一年的 4 个季节,一个年的 12 个月份,一个星期的 7 天,方向有东南西北等. Java 枚举类使用 enum 关键字来定义,各个常量使用逗号 , 来分割. 例如定义一个颜色的枚举类. enum Color { RED, GREEN, BLUE; } 以上枚举类 Color 颜色常量有 RED, GREEN, BLUE,分别表示红色,绿色,蓝色. 使用实例: enum Color { RED, GREEN, BLUE; } public c

一文搞懂Go Exec 僵尸与孤儿进程

目录

场景一

创建两个 shell 脚本

执行脚本

进程关系

删除 start.sh 的进程

问题1：

场景二

执行程序

查看进程

删除 start.sh 的进程

再查看进程

问题2:

问题分析

孤儿进程

解决&预防

僵尸进程

解决&预防

查看进程详情

进程状态（S）

Go解决方案

总结

参考：

相关推荐

随机推荐

删除 `start.sh` 的进程

删除 `start.sh` 的进程