不要用强制方法杀掉python线程

2025-03-30 21:32:15

前言:

不要试图用强制方法杀掉一个python线程，这从服务设计上就存在不合理性。多线程本用来任务的协作并发，如果你使用强制手段干掉线程，那么很大几率出现意想不到的bug。请记住一点，锁资源不会因为线程退出而释放锁资源！

我们可以举出两个常见的例子：

1. 有个A线程拿到了锁，因为他是被强制干掉的，没能及时的release()释放锁资源，那么导致所有的线程获取资源是都被阻塞下去，这就是典型的死锁场景。

2.在常见的生产消费者的场景下，消费者从任务队列获取任务，但是被干掉后没有把正在做的任务丢回队列中，那么这就造成了数据丢失。

下面是java和python终止线程的方法:

java有三种方法可以使终止线程：

1. 使用退出标志，使线程正常退出，也就是当run方法完成后线程终止。
2. 使用stop方法强行终止线程（不推荐使用，因为stop和suspend、resume一样，也可能发生不可预料的结果）。
3. 使用interrupt方法中断线程。

python可以有两种方法：

1. 退出标记
2. 使用ctypes强行杀掉线程

不管是python还是java环境下，理想的停止退出线程方法是让线程自个自杀，所谓的线程自杀就是你给他一个标志位，他退出线程。

下面我们会采用多种方法来测试停止python线程的异常情况。我们查看一个进程所有的执行线程, 进程是用过掌控资源，线程是用作调度单元，进程要被调度执行必须要有一个线程，默认的线程和进程的pid一样的。

ps -mp 31449 -o THREAD,tid

USER   %CPU PRI SCNT WCHAN USER SYSTEM  TID
root   0.0  -  - -     -   -   -
root   0.0 19  - poll_s  -   - 31449
root   0.0 19  - poll_s  -   - 31450

获取到了进程所有的线程后，通过strace得知 31450 是需要我们kill的线程id，当我们kill的时候，会出现整个进程都崩溃的情况。在多线程环境下，产生的信号是传递给整个进程的，一般而言，所有线程都有机会收到这个信号，进程在收到信号的的线程上下文执行信号处理函数，具体是哪个线程执行的难以获知。也就是说，信号会随机发个该进程的一个线程。

strace -p <span style="font-size:14px;line-height:21px;">31450</span> Process <span style="font-size:14px;line-height:21px;">31450</span> attached - interrupt to quit
select(0, NULL, NULL, NULL, {0, 320326}) = 0 (Timeout)
select(0, NULL, NULL, NULL, {1, 0})   = 0 (Timeout)
select(0, NULL, NULL, NULL, {1, 0})   = 0 (Timeout)
select(0, NULL, NULL, NULL, {1, 0})   = ? ERESTARTNOHAND (To be restarted)
--- SIGTERM (Terminated) @ 0 (0) ---
Process <span style="font-size:14px;line-height:21px;">31450</span> detached

上面出现的问题其实跟pthread的说明是一致的。当我们在python代码里加入 signal 信号处理函数后，回调函数可以防止整个进程的退出，那么问题来了，通过信号函数不能识别你要干掉哪一个线程，也就是说，不能精准的干掉某个线程。你虽然把信号发给31450线程id，但是信号受理人是所属进程的任何一个，另外传给信号处理函数的参数只有信号数和信号stack而已，可有可无的。

加了信号处理后，不会退出进程

select(0, NULL, NULL, NULL, {1, 0})   = 0 (Timeout)
select(0, NULL, NULL, NULL, {1, 0})   = ? ERESTARTNOHAND (To be restarted)
--- SIGTERM (Terminated) @ 0 (0) ---
rt_sigreturn(0xffffffff)        = -1 EINTR (Interrupted system call)
select(0, NULL, NULL, NULL, {1, 0})   = 0 (Timeout)
select(0, NULL, NULL, NULL, {1, 0})   = 0 (Timeout)

如果想从外部通知杀掉某个线程，那么可以构建使用rpc服务，或者别的方式通信，signal信号不可以，因为无法无法传递更多的信息。

python的线程不是模拟的，是真实的内核线程，内核调用pthread方法，但Python上层没有提供关闭线程的方法，这就需要我们自己把握了。强烈推荐使用 event 或者自定义标志位的方法，如果非要强制杀掉线程，那么可以用python ctypes PyThreadState SetAsyncExc 方法强制退出，这样对于运行的python服务没有什么影响。

该函数的实现原理比较简单，其实也是在python虚拟机里做个标示位，然后由虚拟机运行一个异常来取消线程，虚拟机会帮你做好try cache。切记不要在外部杀掉python的某个线程，虽然你能通过ctypes找到线程id，但是你直接kill会干掉整个进程的。

下面的代码是用ctypes 杀掉线程的样例，不推荐使用，因为太粗暴了.

import ctypes

def terminate_thread(thread):
  if not thread.isAlive():
    return

  exc = ctypes.py_object(SystemExit)
  res = ctypes.pythonapi.PyThreadState_SetAsyncExc(
    ctypes.c_long(thread.ident), exc)
  if res == 0:
    raise ValueError("nonexistent thread id")
  elif res > 1:
    ctypes.pythonapi.PyThreadState_SetAsyncExc(thread.ident, None)
    raise SystemError("PyThreadState_SetAsyncExc failed")

咱们简单look一下PyThreadState源代码，总而言之触发线程的异常模式。有兴趣的人可以阅读 python pystate.c 的设计，配合着youtube的一些视频分享。


int
PyThreadState_SetAsyncExc(long id, PyObject *exc) {
  PyInterpreterState *interp = GET_INTERP_STATE();
  ...
  HEAD_LOCK();
  for (p = interp->tstate_head; p != NULL; p = p->next) {
    if (p->thread_id == id) {
      从链表里找到线程的id，避免死锁，我们需要释放head_mutex。
      PyObject *old_exc = p->async_exc;
      Py_XINCREF(exc); #增加该对象的引用数
      p->async_exc = exc; # 更为exc模式
      HEAD_UNLOCK();
      Py_XDECREF(old_exc); # 因为要取消，当然也就递减引用
      ...
      return 1; #销毁线程成功
    }
  }
  HEAD_UNLOCK();
  return 0;
}

原生posix pthread 可以使用 ptread_cancel(tid) 在主线程中结束子线程。但是 Python 的线程库不支持这样做，理由是我们不应该强制地结束一个线程，这样会带来很多隐患，应该让该线程自己结束自己。所以在 Python 中，推荐的方法是在子线程中循环判断一个标志位，在主线程中改变该标志位，子线程读到标志位改变，就结束自己。

类似这个逻辑:

def consumer_threading():
 t1_stop= threading.Event()
 t1 = threading.Thread(target=thread1, args=(1, t1_stop))

 t2_stop = threading.Event()
 t2 = threading.Thread(target=thread2, args=(2, t2_stop))

 time.sleep(duration)
 #stop the thread2
 t2_stop.set()

def thread1(arg1, stop_event):
 while(not stop_event.is_set()):
   #similar to time.sleep()
   stop_event.wait(time)
   pass

def thread2(arg1, stop_event):
 while(not stop_event.is_set()):
   stop_event.wait(time)
   pass

简单的总结，虽然我们可以用ctypes里的pystats来控制线程，但这种粗暴中断线程的方法是不合理的。请选用自杀模式！如果你的线程正在发生io阻塞，而不能判断事件怎么办？你的程序需要做优化了，最少在网络io层需要有主动的timeout，避免一直的阻塞下去。

Python中用Ctrl+C终止多线程程序的问题解决

复制代码代码如下: #!/bin/env python # -*- coding: utf-8 -*- #filename: peartest.py import threading, signal is_exit = False def doStress(i, cc): global is_exit idx = i while not is_exit: if (idx < 10000000): print "thread[
python杀死一个线程的方法

最近在项目中遇到这一需求: 我需要一个函数工作,比如远程连接一个端口,远程读取文件等,但是我给的时间有限,比如,4秒钟如果你还没有读取完成或者连接成功,我就不等了,很可能对方已经宕机或者拒绝了.这样可以批量做一些事情而不需要一直等,浪费时间. 结合我的需求,我想到这种办法: 1.在主进程执行,调用一个进程执行函数,然后主进程sleep,等时间到了,就kill 执行函数的进程. 测试一个例子: import time import threading def p(i): print i class
不要用强制方法杀掉python线程

前言: 不要试图用强制方法杀掉一个python线程,这从服务设计上就存在不合理性. 多线程本用来任务的协作并发,如果你使用强制手段干掉线程,那么很大几率出现意想不到的bug. 请记住一点,锁资源不会因为线程退出而释放锁资源 ! 我们可以举出两个常见的例子: 1. 有个A线程拿到了锁,因为他是被强制干掉的,没能及时的release()释放锁资源,那么导致所有的线程获取资源是都被阻塞下去,这就是典型的死锁场景. 2.在常见的生产消费者的场景下,消费者从任务队列获取任务,但是被干掉后没有把正在做的任
python线程join方法原理解析

这篇文章主要介绍了python线程join方法原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下几个事实 1 python 默认参数创建线程后,不管主线程是否执行完毕,都会等待子线程执行完毕才一起退出,有无join结果一样 2 如果创建线程,并且设置了daemon为true,即thread.setDaemon(True), 则主线程执行完毕后自动退出,不会等待子线程的执行结果.而且随着主线程退出,子线程也消亡. 3 join方法的作用是阻
Python线程中对join方法的运用的教程

join 方法:阻塞线程 , 直到该线程执行完毕因此 ,可以对join加一个超时操作 , join([timeout]),超过设置时间,就不再阻塞线程 jion加上还有一个后果就是, 子线程和主线程绑定在一起 , 直到子线程运行完毕,才开始执行子线程. 代码有join: 在CODE上查看代码片派生到我的代码片 #-*- coding: UTF-8 -*- import threading from time import sleep def fun(): 在CODE上查看代码片派生到我的代
Python线程池的正确使用方法

目录 Python线程池的正确使用 1.为什么要使用线程池呢? 2.线程池怎么用呢? 3.如何非阻塞的获取线程执行的结果 4.线程池的运行策略 Python线程池的正确使用 1.为什么要使用线程池呢? 因为线程执行完任务之后就会被系统销毁,下次再执行任务的时候再进行创建.这种方式在逻辑上没有啥问题.但是系统启动一个新线程的成本是比较高,因为其中涉及与操作系统的交互,操作系统需要给新线程分配资源.打个比方吧!就像软件公司招聘员工干活一样.当有活干时,就招聘一个外包人员干活.当活干完之后就把这个人员
python线程、进程和协程详解

引言解释器环境:python3.5.1 我们都知道python网络编程的两大必学模块socket和socketserver,其中的socketserver是一个支持IO多路复用和多线程.多进程的模块.一般我们在socketserver服务端代码中都会写这么一句: server = socketserver.ThreadingTCPServer(settings.IP_PORT, MyServer) ThreadingTCPServer这个类是一个支持多线程和TCP协议的socketserver
Python线程之定位与销毁的实现

背景开工前我就觉得有什么不太对劲,感觉要背锅.这可不,上班第三天就捅锅了. 我们有个了不起的后台程序,可以动态加载模块,并以线程方式运行,通过这种形式实现插件的功能.而模块更新时候,后台程序自身不会退出,只会将模块对应的线程关闭.更新代码再启动,6 得不行. 于是乎我就写了个模块准备大展身手,结果忘记写退出函数了,导致每次更新模块都新创建一个线程,除非重启那个程序,否则那些线程就一直苟活着. 这可不行啊,得想个办法清理呀,要不然怕是要炸了. 那么怎么清理呢?我能想到的就是两步走: 找出需要清理
python 线程的五个状态

当程序中包含多个线程时,CPU 不是一直被特定的线程霸占,而是轮流执行各个线程. 那么,CPU 在轮换执行线程的过程中,即从创建到消亡的整个过程,可能会历经 5 种状态,分别是新建.就绪.运行.阻塞和死亡. 线程的新建状态无论是通过 Thread 类直接实例化对象创建线程,还是通过继承自 Thread 类的子类实例化创建线程,新创建的线程在调用 start() 方法之前,不会得到执行,此阶段的线程就处于新建状态. 线程的就绪状态当位于新建状态的线程调用 start() 方法后,该线程就转换到
python 线程的暂停, 恢复, 退出详解及实例

python 线程暂停, 恢复, 退出我们都知道python中可以是threading模块实现多线程, 但是模块并没有提供暂停, 恢复和停止线程的方法, 一旦线程对象调用start方法后, 只能等到对应的方法函数运行完毕. 也就是说一旦start后, 线程就属于失控状态. 不过, 我们可以自己实现这些. 一般的方法就是循环地判断一个标志位, 一旦标志位到达到预定的值, 就退出循环. 这样就能做到退出线程了. 但暂停和恢复线程就有点难了, 我一直也不清除有什么好的方法, 直到我看到thread
Python线程详解

1. 线程基础 1.1. 线程状态线程有5种状态,状态转换的过程如下图所示: 1.2. 线程同步(锁) 多线程的优势在于可以同时运行多个任务(至少感觉起来是这样).但是当线程需要共享数据时,可能存在数据不同步的问题.考虑这样一种情况:一个列表里所有元素都是0,线程"set"从后向前把所有元素改成1,而线程"print"负责从前往后读取列表并打印.那么,可能线程"set"开始改的时候,线程"print"便来打印列表了,输出就成
Python线程的两种编程方式

Python中如果要使用线程的话,python的lib中提供了两种方式.一种是函数式,一种是用类来包装的线程对象.举两个简单的例子希望起到抛砖引玉的作用,关于多线程编程的其他知识例如互斥.信号量.临界区等请参考python的文档及相关资料. 1.调用thread模块中的start_new_thread()函数来产生新的线程,请看代码: 复制代码代码如下: ### thread_example.py import time import thread def timer(n

不要用强制方法杀掉python线程

相关推荐

随机推荐