深入了解Python的多线程基础

目录
  • 线程
  • 多线程
  • Python多线程
    • 创建线程
    • GIL锁
    • 线程池
  • 总结

线程

线程(Thread),有时也被称为轻量级进程(Lightweight Process,LWP),是操作系统独⽴调度和分派的基本单位,本质上就是一串指令的集合。

⼀个标准的线程由线程id、当前指令指针(PC),寄存器集合和堆栈组成,它是进程中的⼀个实体,线程本身不拥有系统资源,只拥有⼀点⼉在运⾏中必不可少的资源(如程序计数器、寄存器、栈),但它可与同属⼀个进程的其它线程共享进程所拥有的全部资源。线程不能够独⽴执⾏,必须依存在进程中。

多线程

多线程就是使用多个线程同时执行任务,实现了任务的并行执行,从而提高程序运行效率的方法。

试想一下,如果在单个线程内执行多个任务(比如发送网络请求等),如果前面的任务比较耗时,而后面的任务需要等待前面的任务执行完才能执行,这样会影响任务执行效率,那么就可以使用多线程去执行这些任务,任务可以同时进行,那么将大大的提高执行效率。

Python多线程

在Python中,提供了threading模块来实现多进程操作,这个模块是基于较低级的模块 _thread 的基础上建立的,提供了更易用的高级多线程API。

创建线程

可以通过threading模块中的Thread类来创建线程对象。

Thread语法结构:

threading.Thread(group, target, name, daemon)

  • group:默认为None(该参数是为了以后实现ThreadGroup类而保留的)
  • target:在run方法中调用的可调用对象,即线程要执行的任务
  • name:线程名称,可以不设定,默认为"Thread-N"形式的名称
  • args:给target指定的函数传递的参数,以元组的⽅式传递
  • kwargs:给target指定的函数传递命名参数
  • daemon:默认为None,将显式地设置该线程是否为守护模式。如果是None,线程将继承当前线程的守护模式属性

Thread常用方法

  • start():启动线程,并调用该线程中的run()方法
  • run():线程启动时运行的方法,正是它去调用target指定的函数
  • join(timeout=None):让当前调用者线程(一般为主线程)等待,直到该线程结束,timeout是可选的超时时间
  • is_alive():返回当前线程是否存活
import threading
import time
def work(i):
    print("子线程'{}'work正在运行......".format(threading.current_thread().name))
    time.sleep(i)
    print("子线程'{}'运行结束......".format(threading.current_thread().name))
if __name__ == '__main__':
    print("主线程{}启动".format(threading.current_thread().name))
    # 获取线程的名称
    threads = []
    for i in range(5):
        t = threading.Thread(target=work, args=(i,))
    # 启动线程
        threads.append(t)
        t.start()
    for t in threads:
        t.join()
    print("主线程结束")

执行结果为:

上述代码中使用t.join()的功能就是让主线程等待所有子线程结束后才结束,如果想设置守护线程(主线程结束,子线程也随之结束,无论任务执行完成与否)的话,可以使用t.daemon = True

GIL锁

GIL的全称是Global Interpreter Lock(全局解释器锁),这个锁最初的设计是为了保证同一份数据不能被多个线程同时修改,每个线程在执行任务的时候都需要先获取GIL,保证同一时刻只有一个线程可以执行,即同一时刻只有一个线程在解释器中运行,因此Python中的多线程是假的多线程,不是真正意义上的多线程。 如果程序中有多个线程执行任务,那么多个线程会被解释器轮流执行,只不过是切换的很快、很频繁,给人一种多线程“同时”在执行的错觉。

线程池

在之前的文章说过,进程有进程池的机制,同样,线程也有线程池。线程池可以在程序启动时就创建自定义数量的空闲的线程,程序只要将一个任务提交给线程池,线程池就会启动一个空闲的线程来执行它。当该任务执行结束后,该线程并不会死亡,而是再次返回到线程池中变成空闲状态,等待下一个任务的执行。

multiprocessing.dummy里面也有一个Pool对象,它其实就是线程的封装,使用起来和multiprocessing的Pool非常类似。它们api都是通用的,简单地说,multiprocessing.dummymultiprocessing进程池模块复制的一个线程池模块,强调一下,这里线程池也是受到GIL限制的。

使用方式和multiprocessing.Pool一致,具体参考Python进程池。

from multiprocessing.dummy import Pool
import time
def work(i):
    print("work'{}'执行中......".format(i))
    time.sleep(2)
    print("work'{}'执行完毕......".format(i))
if __name__ == '__main__':
    # 创建线程池
    # Pool(5) 表示创建容量为5个线程的线程池
    pool = Pool(5)
    for i in range(10):
        pool.apply_async(work, (i, ))
    pool.close()
    pool.join()

总结

由于Python中的多线程受GIL锁的限制,导致不能利用机器多核的特性,只能利用单核,是假的多线程,但是也不是一无是处,对于IO密集型任务,多线程是能够有效提升运行效率的,这是因为单线程下有IO操作时,会进行IO等待,这样会浪费等待的这段时间,而开启多线程能在线程A等待时,自动切换到线程B,可以减少不必要的时间浪费,从而能提升程序运行效率,但是也不是最好的选择,对于处理IO密集型任务,在Python还有更好的选择协程,在后续文章会介绍。

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注我们的更多内容!

(0)

相关推荐

  • python 多线程与多进程效率测试

    目录 1.概述 2.代码练习 3.运行结果 1.概述 在Python中,计算密集型任务适用于多进程,IO密集型任务适用于多线程 正常来讲,多线程要比多进程效率更高,因为进程间的切换需要的资源和开销更大,而线程相对更小,但是我们使用的Python大多数的解释器是Cpython,众所周知Cpython有个GIL锁,导致执行计算密集型任务时多线程实际只能是单线程,而且由于线程之间切换的开销导致多线程往往比实际的单线程还要慢,所以在 python 中计算密集型任务通常使用多进程,因为各个进程有各自独立的

  • Python基础进阶之海量表情包多线程爬虫功能的实现

    一.前言 在我们日常聊天的过程中会使用大量的表情包,那么如何去获取表情包资源呢?今天老师带领大家使用python中的爬虫去一键下载海量表情包资源 二.知识点 requests网络库 bs4选择器 文件操作 多线程 三.所用到得库 import os import requests from bs4 import BeautifulSoup 四. 功能 # 多线程程序需要用到的一些包 # 队列 from queue import Queue from threading import Thread

  • Python 多线程超详细到位总结

    目录 多线程threading 线程池 线程互斥 lock与Rlock的区别 在实际处理数据时,因系统内存有限,我们不可能一次把所有数据都导出进行操作,所以需要批量导出依次操作.为了加快运行,我们会采用多线程的方法进行数据处理,以下为我总结的多线程批量处理数据的模板: import threading # 从数据库提取数据的类 class Scheduler(): def __init__(self): self._lock = threading.RLock() self.start = 0

  • Python3多线程基础知识点

    多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理. 用户界面可以更加吸引人,比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度 程序的运行速度可能加快 在一些等待的任务实现上如用户输入.文件读写和网络收发数据等,线程就比较有用了.在这种情况下我们可以释放一些珍贵的资源如内存占用等等. 线程在执行过程中与进程还是有区别的.每个独立的线程有一个程序运行的入口.顺序执行序列和程序的出口.但是线程不能够独立执行,必

  • 编写多线程Python服务器 最适合基础

    编写一个多线程的Python服务器. 多线程Python服务器使用以下主要模块来管理多个客户端连接. 1. Python的线程模块 2. SocketServer的 ThreadingMixIn 上述两个模块中的第二个类使得Python服务器能够分叉新线程来照顾每一个新的连接.它也使程序异步运行线程. 这个多线程Python服务器程序包括以下三个Python模块. 1. Python-Server.py 2. Python-ClientA.py 3. Python-ClientB.py Pyth

  • Python进阶多线程爬取网页项目实战

    目录 一.网页分析 二.代码实现 一.网页分析 这次我们选择爬取的网站是水木社区的Python页面 网页:https://www.mysmth.net/nForum/#!board/Python?p=1 根据惯例,我们第一步还是分析一下页面结构和翻页时的请求. 通过前三页的链接分析后得知,每一页链接中最后的参数是页数,我们修改它即可得到其他页面的数据. 再来分析一下,我们需要获取帖子的链接就在id 为 body 的 section下,然后一层一层找到里面的 table,我们就能遍历这些链接的标题

  • 深入了解Python的多线程基础

    目录 线程 多线程 Python多线程 创建线程 GIL锁 线程池 总结 线程 线程(Thread),有时也被称为轻量级进程(Lightweight Process,LWP),是操作系统独⽴调度和分派的基本单位,本质上就是一串指令的集合. ⼀个标准的线程由线程id.当前指令指针(PC),寄存器集合和堆栈组成,它是进程中的⼀个实体,线程本身不拥有系统资源,只拥有⼀点⼉在运⾏中必不可少的资源(如程序计数器.寄存器.栈),但它可与同属⼀个进程的其它线程共享进程所拥有的全部资源.线程不能够独⽴执⾏,必须

  • python获取多线程及子线程的返回值

    最近有个需求,用多线程比较合适,但是我需要每个线程的返回值,这就需要我在threading.Thread的基础上进行封装 import threading class MyThread(threading.Thread): def __init__(self,func,args=()): super(MyThread,self).__init__() self.func = func self.args = args def run(self): self.result = self.func(

  • python实现多线程行情抓取工具的方法

    思路 借助python当中threading模块与Queue模块组合可以方便的实现基于生产者-消费者模型的多线程模型.Jimmy大神的tushare一直是广大python数据分析以及业余量化爱好者喜爱的免费.开源的python财经数据接口包. 平时一直有在用阿里云服务器通过tushare的接口自动落地相关财经数据,但日复权行情数据以往在串行下载的过程当中,速度比较慢,有时遇到网络原因还需要重下.每只股票的行情下载过程中都需要完成下载.落地2个步骤,一个可能需要网络开销.一个需要数据库mysql的

  • Python面向对象编程基础解析(二)

    Python最近挺火呀,比鹿晗薛之谦还要火,当然是在程序员之间.下面我们看看有关Python的相关内容. 上一篇文章我们已经介绍了部分Python面向对象编程基础的知识,大家可以参阅:Python面向对象编程基础解析(一),接下来,我们看看另一篇. 封装 1.为什么要封装? 封装就是要把数据属性和方法的具体实现细节隐藏起来,只提供一个接口.封装可以不用关心对象是如何构建的,其实在面向对象中,封装其实是最考验水平的 2.封装包括数据的封装和函数的封装,数据的封装是为了保护隐私,函数的封装是为了隔离

  • Python面向对象编程基础解析(一)

    1.什么是面向对象 面向对象(oop)是一种抽象的方法来理解这个世界,世间万物都可以抽象成一个对象,一切事物都是由对象构成的.应用在编程中,是一种开发程序的方法,它将对象作为程序的基本单元. 2.面向对象与面向过程的区别 我们之前已经介绍过面向过程了,面向过程的核心在'过程'二字,过程就是解决问题的步骤,面向过程的方法设计程序就像是在设计一条流水线,是一种机械式的思维方式 优点:复杂的问题简单化,流程化 缺点:扩展性差 主要应用场景有:Linux内核,git,以及http服务 面向对象的程序设计

  • Python 爬虫多线程详解及实例代码

    python是支持多线程的,主要是通过thread和threading这两个模块来实现的.thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用. 虽然python的多线程受GIL限制,并不是真正的多线程,但是对于I/O密集型计算还是能明显提高效率,比如说爬虫. 下面用一个实例来验证多线程的效率.代码只涉及页面获取,并没有解析出来. # -*-coding:utf-8 -*- import urllib2, time import thread

  • Python中多线程及程序锁浅析

    Python中多线程使用到Threading模块.Threading模块中用到的主要的类是Thread,我们先来写一个简单的多线程代码: 复制代码 代码如下: # coding : uft-8 __author__ = 'Phtih0n' import threading class MyThread(threading.Thread):     def __init__(self):         threading.Thread.__init__(self) def run(self):

  • 基python实现多线程网页爬虫

    一般来说,使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里,让它来执行. 另一种是直接从Thread继承,创建一个新的class,把线程执行的代码放到这个新的class里. 实现多线程网页爬虫,采用了多线程和锁机制,实现了广度优先算法的网页爬虫. 先给大家简单介绍下我的实现思路: 对于一个网络爬虫,如果要按广度遍历的方式下载,它是这样的: 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址,放入下载列表中 3.按下载列表中的地

  • Python实现多线程抓取网页功能实例详解

    本文实例讲述了Python实现多线程抓取网页功能.分享给大家供大家参考,具体如下: 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术的实现. 1.larbin的URL去重用的很高效的bloom filter算法: 2.DNS处理,使用的adns异步的开源组件: 3.对于url队列的处理,则是用部分缓存到内存,部分写入文件的策略. 4.larbin对文件的相关操作做了很多工作 5.在larbin里有连接池,通过创建套接字,向目标站点

  • python socket多线程通讯实例分析(聊天室)

    本文实例讲述了python socket多线程通讯方法.分享给大家供大家参考,具体如下: #!/usr/bin/evn python """ 这是一个Socket+多进程的例子(聊天服务端) """ import socket import threading # 处理中文数据用的 encoding = "GBK" def HKServer(client, addr): """ 与客户端时实通讯函

随机推荐