一文了解Python并发编程的工程实现方法

2025-04-01 23:51:49

上一篇文章介绍了线程的使用。然而 Python 中由于 Global Interpreter Lock （全局解释锁 GIL ）的存在，每个线程在在执行时需要获取到这个 GIL ，在同一时刻中只有一个线程得到解释锁的执行， Python 中的线程并没有真正意义上的并发执行，多线程的执行效率也不一定比单线程的效率更高。如果要充分利用现代多核 CPU 的并发能力，就要使用 multipleprocessing 模块了。

0x01 multipleprocessing

与使用线程的 threading 模块类似， multipleprocessing 模块提供许多高级 API 。最常见的是 Pool 对象了，使用它的接口能很方便地写出并发执行的代码。

from multiprocessing import Pool
def f(x):
 return x * x
if __name__ == '__main__':
 with Pool(5) as p:
  # map方法的作用是将f()方法并发地映射到列表中的每个元素
  print(p.map(f, [1, 2, 3]))
# 执行结果
# [1, 4, 9]

关于 Pool 下文中还会提到，这里我们先来看 Process 。

Process

要创建一个进程可以使用 Process 类，使用 start() 方法启动进程。

from multiprocessing import Process
import os
def echo(text):
 # 父进程ID
 print("Process Parent ID : ", os.getppid())
 # 进程ID
 print("Process PID : ", os.getpid())
 print('echo : ', text)
if __name__ == '__main__':
 p = Process(target=echo, args=('hello process',))
 p.start()
 p.join()
# 执行结果
# Process Parent ID : 27382
# Process PID : 27383
# echo : hello process

进程池

正如开篇提到的 multiprocessing 模块提供了 Pool 类可以很方便地实现一些简单多进程场景。它主要有以下接口

apply(func[, args[, kwds]])
执行 func(args,kwds) 方法，在方法结束返回前会阻塞。
apply_async(func[, args[, kwds[, callback[, error_callback]]]])
异步执行 func(args,kwds) ，会立即返回一个 result 对象，如果指定了 callback 参数，结果会通过回调方法返回，还可以指定执行出错的回调方法 error_callback()
map(func, iterable[, chunksize])
类似内置函数 map() ，可以并发执行 func ，是同步方法
map_async(func, iterable[, chunksize[, callback[, error_callback]]])
异步版本的 map
close()
关闭进程池。当池中的所有工作进程都执行完毕时，进程会退出。
terminate()
终止进程池
join()
等待工作进程执行完，必需先调用 close() 或者 terminate()

from multiprocessing import Pool
def f(x):
 return x * x
if __name__ == '__main__':
 with Pool(5) as p:
  # map方法的作用是将f()方法并发地映射到列表中的每个元素
  a = p.map(f, [1, 2, 3])
  print(a)
  # 异步执行map
  b = p.map_async(f, [3, 5, 7, 11])
  # b 是一个result对象，代表方法的执行结果
  print(b)
  # 为了拿到结果，使用join方法等待池中工作进程退出
  p.close()
  # 调用join方法前，需先执行close或terminate方法
  p.join()
  # 获取执行结果
  print(b.get())
# 执行结果
# [1, 4, 9]
# <multiprocessing.pool.MapResult object at 0x10631b710>
# [9, 25, 49, 121]

map_async() 和 apply_async() 执行后会返回一个 class multiprocessing.pool.AsyncResult 对象，通过它的 get() 可以获取到执行结果， ready() 可以判断 AsyncResult 的结果是否准备好。

进程间数据的传输

multiprocessing 模块提供了两种方式用于进程间的数据共享：队列( Queue )和管道( Pipe )

Queue 是线程安全，也是进程安全的。使用 Queue 可以实现进程间的数据共享，例如下面的 demo 中子进程 put 一个对象，在主进程中就能 get 到这个对象。任何可以序列化的对象都可以通过 Queue 来传输。

from multiprocessing import Process, Queue
def f(q):
 q.put([42, None, 'hello'])
if __name__ == '__main__':
 # 使用Queue进行数据通信
 q = Queue()
 p = Process(target=f, args=(q,))
 p.start()
 # 主进程取得子进程中的数据
 print(q.get()) # prints "[42, None, 'hello']"
 p.join()
# 执行结果
# [42, None, 'hello']

Pipe() 返回一对通过管道连接的 Connection 对象。这两个对象可以理解为管道的两端，它们通过 send() 和 recv() 发送和接收数据。

from multiprocessing import Process, Pipe
def write(conn):
 # 子进程中发送一个对象
 conn.send([42, None, 'hello'])
 conn.close()
def read(conn):
 # 在读的进程中通过recv接收对象
 data = conn.recv()
 print(data)
if __name__ == '__main__':
 # Pipe()方法返回一对连接对象
 w_conn, r_conn = Pipe()
 wp = Process(target=write, args=(w_conn,))
 rp = Process(target=read, args=(r_conn,))
 wp.start()
 rp.start()
# 执行结果
# [42, None, 'hello']

需要注意的是，两个进程不能同时对一个连接对象进行 send 或 recv 操作。

同步

我们知道线程间的同步是通过锁机制来实现的，进程也一样。

from multiprocessing import Process, Lock
import time
def print_with_lock(l, i):
 l.acquire()
 try:
  time.sleep(1)
  print('hello world', i)
 finally:
  l.release()
def print_without_lock(i):
 time.sleep(1)
 print('hello world', i)
if __name__ == '__main__':
 lock = Lock()
 # 先执行有锁的
 for num in range(5):
  Process(target=print_with_lock, args=(lock, num)).start()
 # 再执行无锁的
 # for num in range(5):
 #  Process(target=print_without_lock, args=(num,)).start()

有锁的代码将每秒依次打印

hello world 0
hello world 1
hello world 2
hello world 3
hello world 4

如果执行无锁的代码，则在我的电脑上执行结果是这样的

hello worldhello world 0
1
hello world 2
hello world 3
hello world 4

除了 Lock ，还包括 RLock 、 Condition 、 Semaphore 和 Event 等进程间的同步原语。其用法也与线程间的同步原语很类似。 API 使用可以参考文末中引用的文档链接。

在工程中实现进程间的数据共享应当优先使用队列或管道。

0x02 总结

本文对 multiprocessing 模块中常见的 API 作了简单的介绍。讲述了 Process 和 Pool 的常见用法，同时介绍了进程间的数据方式：队列和管道。最后简单了解了进程间的同步原语。

使用Python中的greenlet包实现并发编程的入门教程

1 动机 greenlet 包是 Stackless 的副产品,其将微线程称为 "tasklet" .tasklet运行在伪并发中,使用channel进行同步数据交换. 一个"greenlet",是一个更加原始的微线程的概念,但是没有调度,或者叫做协程.这在你需要控制你的代码时很有用.你可以自己构造微线程的调度器:也可以使用"greenlet"实现高级的控制流.例如可以重新创建构造器:不同于Python的构造器,我们的构造器可以嵌套的调用函
python并发编程之多进程、多线程、异步和协程详解

最近学习python并发,于是对多进程.多线程.异步和协程做了个总结. 一.多线程多线程就是允许一个进程内存在多个控制权,以便让多个函数同时处于激活状态,从而让多个函数的操作同时运行.即使是单CPU的计算机,也可以通过不停地在不同线程的指令间切换,从而造成多线程同时运行的效果. 多线程相当于一个并发(concunrrency)系统.并发系统一般同时执行多个任务.如果多个任务可以共享资源,特别是同时写入某个变量的时候,就需要解决同步的问题,比如多线程火车售票系统:两个指令,一个指令检查票是否卖完
Python中的并发编程实例

一.简介我们将一个正在运行的程序称为进程.每个进程都有它自己的系统状态,包含内存状态.打开文件列表.追踪指令执行情况的程序指针以及一个保存局部变量的调用栈.通常情况下,一个进程依照一个单序列控制流顺序执行,这个控制流被称为该进程的主线程.在任何给定的时刻,一个程序只做一件事情. 一个程序可以通过Python库函数中的os或subprocess模块创建新进程(例如os.fork()或是subprocess.Popen()).然而,这些被称为子进程的进程却是独立运行的,它们有各自独立的系统状态以及
python编程使用协程并发的优缺点

协程协程是一种用户态的轻量级线程,又称微线程. 协程拥有自己的寄存器上下文和栈,调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈.因此:协程能保留上一次调用时的状态(即所有局部状态的一个特定组合),每次过程重入时,就相当于进入上一次调用的状态,换种说法:进入上一次离开时所处逻辑流的位置. 优点: 1.无需线程上下文切换的开销 2.无需原子操作锁定及同步的开销 3.方便切换控制流,简化编程模型 4.高并发+高扩展性+低成本:一个CPU支持上万的协程都不
python并发编程之线程实例解析

常用用法 t.is_alive() Python中线程会在一个单独的系统级别线程中执行(比如一个POSIX线程或者一个Windows线程) 这些线程将由操作系统来全权管理.线程一旦启动,将独立执行直到目标函数返回.可以通过查询一个线程对象的状态,看它是否还在执行t.is_alive() t.join() 可以把一个线程加入到当前线程,并等待它终止 Python解释器在所有线程都终止后才继续执行代码剩余的部分 daemon 对于需要长时间运行的线程或者需要一直运行的后台任务,可以用后台线程(也称
Python并发编程协程(Coroutine)之Gevent详解

Gevent官网文档地址:http://www.gevent.org/contents.html 基本概念我们通常所说的协程Coroutine其实是corporateroutine的缩写,直接翻译为协同的例程,一般我们都简称为协程. 在linux系统中,线程就是轻量级的进程,而我们通常也把协程称为轻量级的线程即微线程. 进程和协程下面对比一下进程和协程的相同点和不同点: 相同点: 我们都可以把他们看做是一种执行流,执行流可以挂起,并且后面可以在你挂起的地方恢复执行,这实际上都可以看做是con
理论讲解python多进程并发编程

一.什么是进程进程:正在进行的一个过程或者说一个任务.而负责执行任务则是cpu. 二.进程与程序的区别程序:仅仅是一堆代进程:是指打开程序运行的过程三.并发与并行并发与并行是指cpu运行多个程序的方式不管是并行与并发,在用户看起来都是'同时'运行的,他们都只是一个任务而已,正在干活的是cpu,而一个cpu只能执行一个任务. 并行就相当于有好多台设备,可以同时供好多人使用. 而并发就相当于只有一台设备,供几个人轮流用,每个人用一会就换另一个人. 所以只有多个cpu才能实现并行,而一个c
一文了解Python并发编程的工程实现方法

上一篇文章介绍了线程的使用.然而 Python 中由于 Global Interpreter Lock (全局解释锁 GIL )的存在,每个线程在在执行时需要获取到这个 GIL ,在同一时刻中只有一个线程得到解释锁的执行, Python 中的线程并没有真正意义上的并发执行,多线程的执行效率也不一定比单线程的效率更高. 如果要充分利用现代多核 CPU 的并发能力,就要使用 multipleprocessing 模块了. 0x01 multipleprocessing 与使用线程的 threadin
Python并发编程实例教程之线程的玩法

目录一.线程基础以及守护进程二.线程锁(互斥锁) 三.线程锁(递归锁) 四.死锁五.队列六.相关面试题七.判断数据是否安全八.进程池 & 线程池总结一.线程基础以及守护进程线程是CPU调度的最小单位全局解释器锁全局解释器锁GIL(global interpreter lock) 全局解释器锁的出现主要是为了完成垃圾回收机制的回收机制,对不同线程的引用计数的变化记录的更加精准. 全局解释器锁导致了同一个进程中的多个线程只能有一个线程真正被CPU执行. GIL锁每执行700条指
Python并发编程队列与多线程最快发送http请求方式

目录队列+多线程线程池协程 + aiohttp grequests 最后的话 Python 并发编程有很多方法,多线程的标准库 threading,concurrency,协程 asyncio,当然还有 grequests 这种异步库,每一个都可以实现上述需求,下面一一用代码实现一下,本文的代码可以直接运行,给你以后的并发编程作为参考: 队列+多线程定义一个大小为 400 的队列,然后开启 200 个线程,每个线程都是不断的从队列中获取 url 并访问. 主线程读取文件中的 url 放入
Python并发编程线程消息通信机制详解

目录 1 Event事件 2 Condition 3 Queue队列 4 总结一下前面我已经向大家介绍了,如何使用创建线程,启动线程.相信大家都会有这样一个想法,线程无非就是创建一下,然后再start()下,实在是太简单了. 可是要知道,在真实的项目中,实际场景可要我们举的例子要复杂的多得多,不同线程的执行可能是有顺序的,或者说他们的执行是有条件的,是要受控制的.如果仅仅依靠前面学的那点浅薄的知识,是远远不够的. 那今天,我们就来探讨一下如何控制线程的触发执行. 要实现对多个线程进行控制,其实
深入了解Python并发编程

目录并发方式线程([Thread]) 进程 (Process) 远程分布式主机 (Distributed Node) 伪线程 (Pseudo-Thread) 实战运用计算密集型 IO密集型总结并发方式线程([Thread]) 多线程几乎是每一个程序猿在使用每一种语言时都会首先想到用于解决并发的工具(JS程序员请回避),使用多线程可以有效的利用CPU资源(Python例外).然而多线程所带来的程序的复杂度也不可避免,尤其是对竞争资源的同步问题. 然而在python中由于使用了全局解释锁
Python并发编程之未来模块Futures

目录区分并发和并行并发编程之Futures 到底什么是Futures? 为什么多线程每次只有一个线程执行? 总结不论是哪一种语言,并发编程都是一项非常重要的技巧.比如我们上一章用的爬虫,就被广泛用在工业的各个领域.我们每天在各个网站.App上获取的新闻信息,很大一部分都是通过并发编程版本的爬虫获得的. 正确并合理的使用并发编程,无疑会给我们的程序带来极大性能上的提升.今天我们就一起学习Python中的并发编程——Futures. 区分并发和并行我们在学习并发编程时,常常会听到两个词:并发
Python并发编程多进程,多线程及GIL全局解释器锁

目录 1. 并发与并行 2. 线程与进程的应用场景 2.1. 并行/并发编程相关的技术栈 3. Python中的GIL是什么,它影响什么 1. 并发与并行所谓的并行(Parallelism),就是多个彼此独立的任务可以同时一起执行,彼此并不相互干扰,并行强调的是同时且独立的运行,彼此不需要协作. 而所谓并发(Concurrency),则是多个任务彼此交替执行,但是同一时间只能有一个处于运行状态,并发执行强调任务之间的彼此协作. 并发通常被误解为并行,并发实际是隐式的调度独立的代码,以协作的方式
python并发场景锁的使用方法

目录前言加锁的原因代码实现可重入锁总结前言如果你学过操作系统,那么对于锁应该不陌生.锁的含义是线程锁,可以用来指定某一个逻辑或者是资源同一时刻只能有一个线程访问.这个很好理解,就好像是有一个房间被一把锁锁住了,只有拿到钥匙的人才能进入.每一个人从房间门口拿到钥匙进入房间,出房间的时候会把钥匙再放回到门口.这样下一个到门口的人就可以拿到钥匙了.这里的房间就是某一个资源或者是一段逻辑,而拿取钥匙的人其实指的是一个线程. 加锁的原因我们明白了锁的原理,不禁有了一个问题,我们为什么需要锁

一文了解Python并发编程的工程实现方法

相关推荐

随机推荐