Python多线程与多进程相关知识总结

一、什么是进程

  • 进程是执行中的程序,是资源分配的最小单位:操作系统以进程为单位分配存储空间,进程拥有独立地址空间、内存、数据栈等
  • 操作系统管理所有进程的执行,分配资源
  • 可以通过fork或 spawn的方式派生新进程,新进程也有自己独立的内存空间
  • 进程间通信方式(IPC,Inter-Process Communication)共享信息,实现数据共享,包括管道、信号、套接字、共享内存区等。

二、什么是线程

  • 线程是CPU调度的的最小单位
  • 一个进程可以有多个线程
  • 同进程下执行,并共享相同的上下文
  • 线程间的信息共享和通信更加容易
  • 多线程并发执行
  • 需要同步原语

三、并发、并行

并发通常应用于 I/O 操作频繁的场景,并行则更多应用于 CPU heavy 的场景。

3.1 并发

并发(concurrency),指同一时刻只能有一条指令执行,多个线程的对应的指令被快速轮换地执行,线程/任务之间会互相切换。

  • 处理器先执行线程 A 的指令一段时间,再执行线程 B 的指令一段时间,再切回到线程 A,快速轮换地执行。
  • 处理器切换过程中会进行上下文的切换操作,进行多个线程之间切换和执行,这个切换过程非常快,使得在宏观上看起来多个线程在同时运行。
  • 每个线程的执行会占用这个处理器一个时间片段,同一时刻,其实只有一个线程在执行。

3.2 并行

并行(parallel) 指同一时刻,有多条指令在多个处理器上同时执行

  • 不论是从宏观上还是微观上,多个线程都是在同一时刻一起执行的。
  • 并行只能在多处理器系统中存在,如果只有一个核就不可能实现并行。并发在单处理器和多处理器系统中都是可以存在的,一个核就可以实现并发。

注意:具体是并发还是并行取决于操作系统的调度。

四、多线程适用场景

多线程/多进程是解决并发问题的经典模型之一。

在一个程序进程中,有一些操作是比较耗时或者需要等待的,比如等待数据库的查询结果的返回,等待网页结果的响应。这个线程在等待的过程中,处理器是可以执行其他的操作的,从而从整体上提高执行效率。

比如网络爬虫,在向服务器发起请求之后,有一段时间必须要等待服务器的响应返回,这种任务属于 IO 密集型任务。对于这种任务,启用多线程可以在某个线程等待的过程中去处理其他的任务,从而提高整体的爬取效率。

还有一种任务叫作计算密集型任务,或者称为CPU 密集型任务。任务的运行一直需要处理器的参与。如果使用多线程,一个处理器从一个计算密集型任务切换到另一个计算密集型任务,处理器依然不会停下来,并不会节省总体的时间,如果线程数目过多,进程上下文切换会占用大量的资源,整体效率会变低。

所以,如果任务不全是计算密集型任务,我们可以使用多线程来提高程序整体的执行效率。尤其对于网络爬虫这种 IO 密集型任务来说,使用多线程会大大提高程序整体的爬取效率,多线程只适合IO 密集型任务。

五、Python GIL

由于 Python 中 GIL 的限制,导致不论是在单核还是多核条件下,在同一时刻只能运行一个线程,导致 Python 多线程无法发挥多核并行的优势。

GIL 全称为 Global Interpreter Lock(全局解释器锁),是 Python 解释器 CPython 中的一个技术术语,是Python之父为了数据安全而设计的。

CPython 使用引用计数来管理内存,所有 Python 脚本中创建的实例,都会有一个引用计数,来记录有多少个指针指向它。当引用计数只有 0 时,则会自动释放内存。每隔一段时间,Python 解释器就会强制当前线程去释放 GIL,Python 3 以后版本的间隔时间是 15 毫秒。

在 Python 多线程下,每个线程轮流执行:

  • 获取 GIL
  • 执行对应线程的代码
  • 释放 GIL

某个线程想要执行,必须先拿到 GIL,并且在一个 Python 进程中,GIL 只有一个,导致即使在多核的条件下,同一时刻也只能执行一个线程。每一个线程执行完一段后,会释放 GIL,以允许别的线程开始利用资源。

六、Python多线程、多进程实例:CPU 密集型任务

6.1 单线程

执行一个CPU 密集型任务:

import time
import os

def cpu_bound_task(n):
    print('当前进程: {}'.format(os.getpid()))
    while n > 0:
        n -= 1

if __name__ == "__main__":
    print('主进程: {}'.format(os.getpid()))
    start = time.time()
    for i in range(2):
        cpu_bound_task(100000000)
    end = time.time()
    print(f"耗时{end - start}秒")

输出:

主进程: 10104
当前进程: 10104
当前进程: 10104
耗时10.829032897949219秒

6.2 多线程

import os
import threading
import time

def cpu_bound_task(n,i):
    print(f'子线程 {threading.current_thread().name}:{os.getpid()} - 任务{i}')
    while n > 0:
        n -= 1

if __name__=='__main__':
    start = time.time()
    print(f'主线程: {os.getpid()}')
    thread_list = []
    for i in range(1, 3):
        t = threading.Thread(target=cpu_bound_task, args=(100000000,i))
        thread_list.append(t)

    for t in thread_list:
        t.start()

    for t in thread_list:
        t.join()

    end = time.time()
    print(f"耗时{end - start}秒")
  • start():启动线程
  • join():等待子线程结束后主程序才退出,便于计算所有进程执行时间。

输出:

主线程: 1196
子线程 Thread-1:1196 - 任务1
子线程 Thread-2:1196 - 任务2
耗时10.808091640472412秒

可以发现多线程对CPU 密集型任务性能没有提升效果。

6.3 多进程

from multiprocessing import Process
import os
import time

def cpu_bound_task(n,i):
    print(f'子进程: {os.getpid()} - 任务{i}')
    while n > 0:
        n -= 1

if __name__=='__main__':
    print(f'父进程: {os.getpid()}')
    start = time.time()
    p1 = Process(target=cpu_bound_task, args=(100000000,1))
    p2 = Process(target=cpu_bound_task, args=(100000000,2))
    p1.start()
    p2.start()
    p1.join()
    p2.join()
    end = time.time()
    print(f"耗时{end - start}秒")

输出:

父进程: 22636
子进程: 18072 - 任务1
子进程: 9580 - 任务2
耗时6.264241933822632秒

也可以使用Pool类创建多进程

from multiprocessing import Pool, cpu_count
import os
import time

def cpu_bound_task(n,i):
    print(f'子进程: {os.getpid()} - 任务{i}')
    while n > 0:
        n -= 1

if __name__=='__main__':
    print(f"CPU内核数:{cpu_count()}")
    print(f'父进程: {os.getpid()}')
    start = time.time()
    p = Pool(4)
    for i in range(2):
        p.apply_async(cpu_bound_task, args=(100000000,i))
    p.close()
    p.join()
    end = time.time()
    print(f"耗时{end - start}秒")

输出:

CPU内核数:8
父进程: 18616
子进程: 21452 - 任务0
子进程: 16712 - 任务1
耗时5.928101301193237秒

七、Python多线程、多进程实例:IO密集型任务

7.1 单线程

IO 密集型任务:

def io_bound_task(self, n, i):
    print(f'子进程: {os.getpid()} - 任务{i}')
    print(f'IO Task{i} start')
    time.sleep(n)
    print(f'IO Task{i} end')

if __name__=='__main__':
    print('主进程: {}'.format(os.getpid()))
    start = time.time()
    for i in range(2):
        self.io_bound_task(4,i)
    end = time.time()
    print(f"耗时{end - start}秒")

输出:

主进程: 2780
子进程: 2780 - 任务0
IO Task0 start
IO Task0 end
子进程: 2780 - 任务1
IO Task1 start
IO Task1 end
耗时8.04494023323059秒

7.2 多线程

print(f"CPU内核数:{cpu_count()}")
print(f'父进程: {os.getpid()}')
start = time.time()
p = Pool(2)
for i in range(2):
    p.apply_async(io_bound_task, args=(4, i))
p.close()
p.join()
end = time.time()
print(f"耗时{end - start}秒")

输出:

CPU内核数:8
父进程: 1396
子进程: 2712 - 任务0
IO Task0 start
子进程: 10492 - 任务1
IO Task1 start
IO Task0 endIO Task1 end

耗时4.201171398162842秒

可以看出对于IO密集型任务,Python多线程具有显著提升。

7.3 多进程

print(f'父进程: {os.getpid()}')
start = time.time()
p1 = Process(target=io_bound_task, args=(4, 1))
p2 = Process(target=io_bound_task, args=(4, 2))
p1.start()
p2.start()
p1.join()
p2.join()
end = time.time()
print("耗时{}秒".format((end - start)))

输出:

父进程: 12328
子进程: 12452 - 任务2
IO Task2 start
子进程: 16896 - 任务1
IO Task1 start
IO Task1 endIO Task2 end                                                                                                                                                                                                     耗时4.1241302490234375秒

7.4 协程

IO型任务还可以使用协程,协程比线程更加轻量级,一个线程可以拥有多个协程,协程在用户态执行,完全由程序控制。一般来说,线程数量越多,协程性能的优势越明显。这里就不介绍Python协程了,下面Python代码是协程的其中一种实现方式:

import asyncio
import time

async def io_bound_task(self,n,i):
    print(f'子进程: {os.getpid()} - 任务{i}')
    print(f'IO Task{i} start')
    # time.sleep(n)
    await asyncio.sleep(n)
    print(f'IO Task{i} end')

if __name__ == '__main__':
    start = time.time()
    loop = asyncio.get_event_loop()
    tasks = [io_bound_task(4, i) for i in range(2)]
    loop.run_until_complete(asyncio.wait(tasks))
    loop.close()
    end = time.time()
    print(f"耗时{end - start}秒")

输出:

子进程: 5436 - 任务1
IO Task1 start
子进程: 5436 - 任务0
IO Task0 start
IO Task1 end
IO Task0 end
耗时4.008626461029053秒

八、总结

Python 由于GIL锁的存在,无法利用多进程的优势,要真正利用多核,可以重写一个不带GIL的解释器, 比如JPython(Java 实现的 Python 解释器)。

某些Python 库使用C语言实现,例如 NumPy 库不受 GIL 的影响。在实际工作中,如果对性能要求很高,可以使用C++ 实现,然后再提供 Python 的调用接口。另外Java语言也没有GIL限制。

对于多线程任务,如果线程数量很多,建议使用Python协程,执行效率比多线程高。

到此这篇关于Python多线程与多进程相关知识总结的文章就介绍到这了,更多相关Python多线程与多进程内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python多线程处理实例详解【单进程/多进程】

    本文实例讲述了Python多线程处理操作.分享给大家供大家参考,具体如下: python - 多线程处理 1.一个进程执行完后,继续下一个进程 root@72132server:~# cd /root/python/multiprocess/ root@72132server:~/python/multiprocess# ls multprocess.py root@72132server:~/python/multiprocess# cat multprocess.py #!/usr/bin/

  • Python并发:多线程与多进程的详解

    本篇概要 1.线程与多线程 2.进程与多进程 3.多线程并发下载图片 4.多进程并发提高数字运算 关于并发 在计算机编程领域,并发编程是一个很常见的名词和功能了,其实并发这个理念,最初是源于铁路和电报的早期工作.比如在同一个铁路系统上如何安排多列火车,保证每列火车的运行都不会发生冲突. 后来在20世纪60年代,学术界对计算机的并行计算开始进行研究,再后来,操作系统能够进行并发的处理任务,编程语言能够为程序实现并发的功能. 线程与多线程 什么是线程 一个线程可以看成是一个有序的指令流(完成特定任务

  • Python全局锁中如何合理运用多线程(多进程)

    Python全局锁 (1)全局锁导致的问题 全局锁的英文简称是GIL,全称是Global Interpreter Lock(全局解释器锁),来源是python设计之初的考虑,为了数据安全所做的决定,每个线程在执行时候都需要先获取GIL,保证同一时刻只有一个线程可以执行代码,即同一时刻只有一个线程使用CPU,也就是说多线程并不是真正意义上的同时执行. 每个CPU在同一时间只能执行一个线程(在单核CPU下的多线程其实都只是并发,不是并行,并发和并行从宏观上来讲都是同时处理多路请求的概念.但并发和并行

  • python线程安全及多进程多线程实现方法详解

    进程和线程的区别 进程是对运行时程序的封装,是系统资源调度和分配的基本单位 线程是进程的子任务,cpu调度和分配的基本单位,实现进程内并发. 一个进程可以包含多个线程,线程依赖进程存在,并共享进程内存 什么是线程安全 一个线程的修改被另一个线程的修改覆盖掉. python中哪些操作是线程安全的 一个操作可以在多线程环境中使用,并且获得正确的结果. 线程安全的操作线程是顺序执行的而不是并发执行的. 一般涉及到写操作需要考虑如何让多个线程安全访问数据. 线程同步的方式 互斥量(锁): 通过互斥机制防

  • Python实现多线程/多进程的TCP服务器

    多线程的TCP服务器,供大家参考,具体内容如下 背景:同学公司的传感器设备需要将收集的数据发到服务器上,前期想写一个简单的服务器来测试下使用效果,设备收集的数据非常的重要,所以考虑使用TCP协议来实现. 因为只是测试使用,所以采用多线程的方式,毕竟节省资源嘛(使用协程时会导致I/O阻塞) 开门见山,直接搬上来了 一.tcp_server_v1.0使用说明: 1.运行环境:python3解释器,并安装socket.threading模块: 2.该版本使用多线程实现的多任务: 3.支持多台设备同时连

  • python多线程与多进程及其区别详解

    前言 个人一直觉得对学习任何知识而言,概念是相当重要的.掌握了概念和原理,细节可以留给实践去推敲.掌握的关键在于理解,通过具体的实例和实际操作来感性的体会概念和原理可以起到很好的效果.本文通过一些具体的例子简单介绍一下python的多线程和多进程,后续会写一些进程通信和线程通信的一些文章. python多线程 python中提供两个标准库thread和threading用于对线程的支持,python3中已放弃对前者的支持,后者是一种更高层次封装的线程库,接下来均以后者为例. 创建线程 pytho

  • Python实现的多进程和多线程功能示例

    本文实例讲述了Python实现的多进程和多线程功能.分享给大家供大家参考,具体如下: 听了朋友说起,他们目前开发的测试框架,用python实现的分布式系统.虽然python的执行效率没有c和c++那么高,但是依靠集群的力量,产生的压力很是牛逼啊. 了解了下大概的方式就是 1.有台主控机,负责调度,比如执行的参数等 2.有n多台执行机,每个执行机上部署一个python的xmlRPC server,主控机调用rpccall,然后执行机执行.rpccall里面会fork一些进程,每个进程再创建一些线程

  • Python中单线程、多线程和多进程的效率对比实验实例

    python的多进程性能要明显优于多线程,因为cpython的GIL对性能做了约束. Python是运行在解释器中的语言,查找资料知道,python中有一个全局锁(GIL),在使用多进程(Thread)的情况下,不能发挥多核的优势.而使用多进程(Multiprocess),则可以发挥多核的优势真正地提高效率. 对比实验 资料显示,如果多线程的进程是CPU密集型的,那多线程并不能有多少效率上的提升,相反还可能会因为线程的频繁切换,导致效率下降,推荐使用多进程:如果是IO密集型,多线程进程可以利用I

  • python 多进程和多线程使用详解

    进程和线程 进程是系统进行资源分配的最小单位,线程是系统进行调度执行的最小单位: 一个应用程序至少包含一个进程,一个进程至少包含一个线程: 每个进程在执行过程中拥有独立的内存空间,而一个进程中的线程之间是共享该进程的内存空间的: 计算机的核心是CPU,它承担了所有的计算任务.它就像一座工厂,时刻在运行. 假定工厂的电力有限,一次只能供给一个车间使用.也就是说,一个车间开工的时候,其他车间都必须停工.背后的含义就是,单个CPU一次只能运行一个任务.编者注: 多核的CPU就像有了多个发电厂,使多工厂

  • Python实现的服务器示例小结【单进程、多进程、多线程、非阻塞式】

    本文实例讲述了Python实现的服务器.分享给大家供大家参考,具体如下: python - 单进程服务器 #coding=utf-8 from socket import * #创建套接字 serSocket = socket(AF_INET, SOCK_STREAM) #重复使用绑定信息 serSocket.setsockopt(SOL_SOCKET, SO_REUSEADDR, 1) localAddr = ('', 7788) #绑定端口ip serSocket.bind(localAdd

随机推荐