Python网络爬虫中的同步与异步示例详解

2025-02-12 18:49:36

一、同步与异步

#同步编程（同一时间只能做一件事，做完了才能做下一件事情）
<-a_url-><-b_url-><-c_url->
#异步编程 (可以近似的理解成同一时间有多个事情在做，但有先后)
<-a_url->
 <-b_url->
 <-c_url->
 <-d_url->
 <-e_url->
  <-f_url->
  <-g_url->
  <-h_url->
  <--i_url-->
   <--j_url-->

模板

import asyncio
#函数名:做现在的任务时不等待，能继续做别的任务。
async def donow_meantime_dontwait(url):
 response = await requests.get(url)
#函数名:快速高效的做任务
async def fast_do_your_thing():
 await asyncio.wait([donow_meantime_dontwait(url) for url in urls])
#下面两行都是套路，记住就好
loop = asyncio.get_event_loop()
loop.run_until_complete(fast_do_your_thing())

tips:

await表达式中的对象必须是awaitable
requests不支持非阻塞
aiohttp是用于异步请求的库

代码

import asyncio
import requests
import time
import aiohttp
urls = ['https://book.douban.com/tag/小说','https://book.douban.com/tag/科幻',
 'https://book.douban.com/tag/漫画','https://book.douban.com/tag/奇幻',
 'https://book.douban.com/tag/历史','https://book.douban.com/tag/经济学']
async def requests_meantime_dont_wait(url):
 print(url)
 async with aiohttp.ClientSession() as session:
 async with session.get(url) as resp:
  print(resp.status)
  print("{url} 得到响应".format(url=url))
async def fast_requsts(urls):
 start = time.time()
 await asyncio.wait([requests_meantime_dont_wait(url) for url in urls])
 end = time.time()
 print("Complete in {} seconds".format(end - start))
loop = asyncio.get_event_loop()
loop.run_until_complete(fast_requsts(urls))

gevent简介

gevent是一个python的并发库，它为各种并发和网络相关的任务提供了整洁的API。

gevent中用到的主要模式是greenlet，它是以C扩展模块形式接入Python的轻量级协程。 greenlet全部运行在主程序操作系统进程的内部，但它们被协作式地调度。

猴子补丁

requests库是阻塞式的，为了将requests同步更改为异步。只有将requests库阻塞式更改为非阻塞，异步操作才能实现。

而gevent库中的猴子补丁（monkey patch），gevent能够修改标准库里面大部分的阻塞式系统调用。这样在不改变原有代码的情况下，将应用的阻塞式方法，变成协程式的（异步）。

代码

from gevent import monkey
import gevent
import requests
import time

monkey.patch_all()

def req(url):
 print(url)
 resp = requests.get(url)
 print(resp.status_code,url)
def synchronous_times(urls):
 """同步请求运行时间"""
 start = time.time()
 for url in urls:
 req(url)
 end = time.time()
 print('同步执行时间 {} s'.format(end-start))
def asynchronous_times(urls):
 """异步请求运行时间"""
 start = time.time()
 gevent.joinall([gevent.spawn(req,url) for url in urls])
 end = time.time()
 print('异步执行时间 {} s'.format(end - start))
urls = ['https://book.douban.com/tag/小说','https://book.douban.com/tag/科幻',
 'https://book.douban.com/tag/漫画','https://book.douban.com/tag/奇幻',
 'https://book.douban.com/tag/历史','https://book.douban.com/tag/经济学']
synchronous_times(urls)
asynchronous_times(urls)

gevent：异步理论与实战

gevent库中使用的最核心的是Greenlet-一种用C写的轻量级python模块。在任意时间，系统只能允许一个Greenlet处于运行状态

一个greenlet遇到IO操作时，比如访问网络，就自动切换到其他的greenlet，等到IO操作完成，再在适当的时候切换回来继续执行。由于IO操作非常耗时，经常使程序处于等待状态，有了gevent为我们自动切换协程，就保证总有greenlet在运行，而不是等待IO。

串行和异步

高并发的核心是让一个大的任务分成一批子任务，并且子任务会被被系统高效率的调度，实现同步或者异步。在两个子任务之间切换，也就是经常说到的上下文切换。

同步就是让子任务串行，而异步有点影分身之术，但在任意时间点，真身只有一个，子任务并不是真正的并行，而是充分利用了碎片化的时间，让程序不要浪费在等待上。这就是异步，效率杠杆的。

gevent中的上下文切换是通过yield实现。在这个例子中，我们会有两个子任务，互相利用对方等待的时间做自己的事情。这里我们使用gevent.sleep(0)代表程序会在这里停0秒。

import gevent
def foo():
 print('Running in foo')
 gevent.sleep(0)
 print('Explicit context switch to foo again')

def bar():
 print('Explicit context to bar')
 gevent.sleep(0)
 print('Implicit context switch back to bar')

gevent.joinall([
 gevent.spawn(foo),
 gevent.spawn(bar)
 ])

运行的顺序：

Running in foo
Explicit context to bar
Explicit context switch to foo again
Implicit context switch back to bar

同步异步的顺序问题

同步运行就是串行，123456...，但是异步的顺序是随机的任意的（根据子任务消耗的时间而定）

代码

import gevent
import random
def task(pid):
 """
 Some non-deterministic task
 """
 gevent.sleep(random.randint(0,2)*0.001)
 print('Task %s done' % pid)
#同步（结果更像串行）
def synchronous():
 for i in range(1,10):
 task(i)
#异步（结果更像乱步）
def asynchronous():
 threads = [gevent.spawn(task, i) for i in range(10)]
 gevent.joinall(threads)
print('Synchronous同步:')
synchronous()
print('Asynchronous异步:')
asynchronous()

输出

Synchronous同步:
Task 1 done
Task 2 done
Task 3 done
Task 4 done
Task 5 done
Task 6 done
Task 7 done
Task 8 done
Task 9 done
Asynchronous异步:
Task 1 done
Task 5 done
Task 6 done
Task 2 done
Task 4 done
Task 7 done
Task 8 done
Task 9 done
Task 0 done
Task 3 done

同步案例中所有的任务都是按照顺序执行，这导致主程序是阻塞式的（阻塞会暂停主程序的执行）。

gevent.spawn会对传入的任务（子任务集合）进行进行调度，gevent.joinall方法会阻塞当前程序，除非所有的greenlet都执行完毕，程序才会结束。

实战

实现gevent到底怎么用，把异步访问得到的数据提取出来。

在有道词典搜索框输入“hello”按回车。观察数据请求情况观察有道的url构建。

分析url规律

#url构建只需要传入word即可
url = "http://dict.youdao.com/w/eng/{}/".format(word)

解析网页数据

def fetch_word_info(word):
 url = "http://dict.youdao.com/w/eng/{}/".format(word)
 resp = requests.get(url,headers=headers)
 doc = pq(resp.text)
 pros = ''
 for pro in doc.items('.baav .pronounce'):
  pros+=pro.text()
 description = ''
 for li in doc.items('#phrsListTab .trans-container ul li'):
  description +=li.text()
 return {'word':word,'音标':pros,'注释':description}

因为requests库在任何时候只允许有一个访问结束完全结束后，才能进行下一次访问。无法通过正规途径拓展成异步，因此这里使用了monkey补丁

同步代码

import requests
from pyquery import PyQuery as pq
import gevent
import time
import gevent.monkey
gevent.monkey.patch_all()
words = ['good','bad','cool',
   'hot','nice','better',
   'head','up','down',
   'right','left','east']
def synchronous():
 start = time.time()
 print('同步开始了')
 for word in words:
  print(fetch_word_info(word))
 end = time.time()
 print("同步运行时间： %s 秒" % str(end - start))

#执行同步
synchronous()

异步代码

import requests
from pyquery import PyQuery as pq
import gevent
import time
import gevent.monkey
gevent.monkey.patch_all()
words = ['good','bad','cool',
   'hot','nice','better',
   'head','up','down',
   'right','left','east']
def asynchronous():
 start = time.time()
 print('异步开始了')
 events = [gevent.spawn(fetch_word_info,word) for word in words]
 wordinfos = gevent.joinall(events)
 for wordinfo in wordinfos:
  #获取到数据get方法
  print(wordinfo.get())
 end = time.time()
 print("异步运行时间： %s 秒"%str(end-start))
#执行异步
asynchronous()

我们可以对待爬网站实时异步访问，速度会大大提高。我们现在是爬取12个词语的信息，也就是说一瞬间我们对网站访问了12次，这还没啥问题，假如爬10000+个词语，使用gevent的话，那几秒钟之内就给网站一股脑的发请求，说不定网站就把爬虫封了。

解决办法

将列表等分为若干个子列表，分批爬取。举例我们有一个数字列表（0-19），要均匀的等分为4份，也就是子列表有5个数。下面是我在stackoverflow查找到的列表等分方案：

方法1

seqence = list(range(20))
size = 5 #子列表长度
output = [seqence[i:i+size] for i in range(0, len(seqence), size)]
print(output)

方法2

chunks = lambda seq, size: [seq[i: i+size] for i in range(0, len(seq), size)]
print(chunks(seq, 5))

方法3

def chunks(seq,size):
 for i in range(0,len(seq), size):
  yield seq[i:i+size]
prinT(chunks(seq,5))
 for x in chunks(req,5):
   print(x)

数据量不大的情况下，选哪一种方法都可以。如果特别大，建议使用方法3.

动手实现

import requests
from pyquery import PyQuery as pq
import gevent
import time
import gevent.monkey
gevent.monkey.patch_all()
words = ['good','bad','cool',
   'hot','nice','better',
   'head','up','down',
   'right','left','east']
def fetch_word_info(word):
 url = "http://dict.youdao.com/w/eng/{}/".format(word)
 resp = requests.get(url,headers=headers)
 doc = pq(resp.text)
 pros = ''
 for pro in doc.items('.baav .pronounce'):
  pros+=pro.text()
 description = ''
 for li in doc.items('#phrsListTab .trans-container ul li'):
  description +=li.text()
 return {'word':word,'音标':pros,'注释':description}
def asynchronous(words):
 start = time.time()
 print('异步开始了')
 chunks = lambda seq, size: [seq[i: i + size] for i in range(0, len(seq), size)]
 for subwords in chunks(words,3):
  events = [gevent.spawn(fetch_word_info, word) for word in subwords]
  wordinfos = gevent.joinall(events)
  for wordinfo in wordinfos:
   # 获取到数据get方法
   print(wordinfo.get())
  time.sleep(1)
  end = time.time()
 print("异步运行时间： %s 秒" % str(end - start))
asynchronous(words)

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

您可能感兴趣的文章:

python3使用urllib模块制作网络爬虫
Python网络爬虫出现乱码问题的解决方法
Python网络爬虫实例讲解
python 网络爬虫初级实现代码
python网络爬虫采集联想词示例
详解Python网络爬虫功能的基本写法
Python网络爬虫与信息提取(实例讲解)

python网络爬虫采集联想词示例

python爬虫_采集联想词代码复制代码代码如下: #coding:utf-8import urllib2import urllibimport reimport timefrom random import choice#特别提示,下面这个list中的代理ip可能失效,请换上有效的代理ipiplist = ['27.24.158.153:81','46.209.70.74:8080','60.29.255.88:8888'] list1 = ["集团","科技&quo
详解Python网络爬虫功能的基本写法

网络爬虫,即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 1. 网络爬虫的定义网络蜘蛛是通过网页的链接地址来寻找网页的.从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止.如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来.这样看来,网络爬虫就是一个爬行程序,一个抓取网页的
Python网络爬虫出现乱码问题的解决方法

关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来后的编码格式不一致. 如源网页为gbk编码的字节流,而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中,这必然会引起乱码即当源网页编码和抓取下来后程序直接使用处理编码一致时,则不会出现乱码; 此时再进行统一的字符编码也就不会出现乱码了注意区分源网编码A. 程序直接使用的编码B. 统
python3使用urllib模块制作网络爬虫

urllib urllib模块是python3的URL处理包其中: 1.urllib.request主要是打开和阅读urls 个人平时主要用的1: 打开对应的URL:urllib.request.open(url) 用urllib.request.build_opener([handler, ...]),来伪装成对应的浏览器 import urllib #要伪装成的浏览器(我这个是用的chrome) headers = ('User-Agent','Mozilla/5.0 (Windows N
Python网络爬虫实例讲解

聊一聊Python与网络爬虫. 1.爬虫的定义爬虫:自动抓取互联网数据的程序. 2.爬虫的主要框架爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出. 3.爬虫的时序图 4.URL管理器 URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取.URL管理器的主要职能如下图
python 网络爬虫初级实现代码

首先,我们来看一个Python抓取网页的库:urllib或urllib2. 那么urllib与urllib2有什么区别呢? 可以把urllib2当作urllib的扩增,比较明显的优势是urllib2.urlopen()可以接受Request对象作为参数,从而可以控制HTTP Request的header部. 做HTTP Request时应当尽量使用urllib2库,但是urllib.urlretrieve()函数以及urllib.quote等一系列quote和unquote功能没有被加入urll
Python网络爬虫与信息提取(实例讲解)

课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解析HTML页面 4.Re框架:正则框架,提取页面关键信息 5.Scrapy框架:网络爬虫原理介绍,专业爬虫框架介绍理念:The Website is the API ... Python语言常用的IDE工具文本工具类IDE: IDLE.Notepad++.Sublime Text.Vim & Emacs.Atom.Komodo E
Python网络爬虫中的同步与异步示例详解

一.同步与异步 #同步编程(同一时间只能做一件事,做完了才能做下一件事情) <-a_url-><-b_url-><-c_url-> #异步编程 (可以近似的理解成同一时间有多个事情在做,但有先后) <-a_url-> <-b_url-> <-c_url-> <-d_url-> <-e_url-> <-f_url-> <-g_url-> <-h_url-> <--i_ur
python网络爬虫实现个性化音乐播放器示例解析

目录前言开发组件功能流程分析基于python的个性化音乐下载器模块详细 (一)前端模块 (二)后端模块前言当前很多人在闲暇时喜欢听音乐,那么基于这种现象,我也是肝了几个小时完成了基于python的个性化音乐播放器,现在分享给你们. 开发组件 python3.5 以上版本就行tkinter (python 自带的用于图形用户界面开发的模块)requests(爬虫模块)Chrome 浏览器等等功能音乐下载器功能: (1).用户输入想要下载的歌曲或关键字名称 (2).程序获取用户所输
python爬虫中的url下载器用法详解

前期的入库筛选工作已经由url管理器完成了,整理的工作自然要由url下载器接手.当我们需要爬取的数据已经去重后,下载器的主要任务的是这些数据下载下来.所以它的使用也并不复杂,不过需要借助到我们之前所学过的一个库进行操作,相信之前的基础大家都学的很牢固.下面小编就来为大家介绍url下载器及其使用的方法. 下载器的作用就是接受URL管理器传递给它的一个url,然后把该网页的内容下载下来.python自带有urllib和urllib2等库(这两个库在python3中合并为urllib),它们的作用就是
Spring中@Async注解实现异步调详解

异步调用在解释异步调用之前,我们先来看同步调用的定义:同步就是整个处理过程顺序执行,当各个过程都执行完毕,并返回结果. 异步调用则是只是发送了调用的指令,调用者无需等待被调用的方法完全执行完毕,继续执行下面的流程.例如, 在某个调用中,需要顺序调用 A, B, C三个过程方法:如他们都是同步调用,则需要将他们都顺序执行完毕之后,过程才执行完毕: 如B为一个异步的调用方法,则在执行完A之后,调用B,并不等待B完成,而是执行开始调用C,待C执行完毕之后,就意味着这个过程执行完毕了. 概述说明 Sp
Python爬虫之爬取淘女郎照片示例详解

本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址.点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面. 我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,
python爬虫使用requests发送post请求示例详解

简介 HTTP协议规定post提交的数据必须放在消息主体中,但是协议并没有规定必须使用什么编码方式.服务端通过是根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析.具体的编码方式包括: application/x-www-form-urlencoded 最常见post提交数据的方式,以form表单形式提交数据. application/json 以json串提交数据. multipart/form-data 一般使用来上传文件. 一. 以f
详解Python中生成随机数据的示例详解

目录随机性有多随机加密安全性 PRNG random 模块数组 numpy.random 相关数据的生成 random模块与NumPy对照表 CSPRNG 尽可能随机 os.urandom() secrets 最佳保存方式 UUID 工程随机性的比较在日常工作编程中存在着各种随机事件,同样在编程中生成随机数字的时候也是一样,随机有多随机呢?在涉及信息安全的情况下,它是最重要的问题之一.每当在 Python 中生成随机数据.字符串或数字时,最好至少大致了解这些数据是如何生成的. 用于在 P
Python中bisect的用法及示例详解

bisect是python内置模块,用于有序序列的插入和查找. 查找: bisect(array, item) 插入: insort(array,item) 查找 import bisect a = [1,4,6,8,12,15,20] position = bisect.bisect(a,13) print(position) # 用可变序列内置的insert方法插入 a.insert(position,13) print(a) 输出: 5 [1, 4, 6, 8, 12, 13, 15, 2
Python 在 VSCode 中使用 IPython Kernel 的方法详解

本文介绍,在 VSCode 使用 IPython Kernel的设置方法,详细介绍如下所示: 要达到的效果: 只需按下 Ctrl+:,选中的几行代码,就会自动发送到 IPython Kernel,并运行,得到结果!当然,快捷键也可以另行设置! 为什么要这么做: 首先,这种配置方式,比较轻量快速: 主要用于,增加写代码时的"互动性",可以边写代码,边测试:例如,在写代码时候,快速测试下,一行或几行代码,看看效果: 所以,非常适合新手,边写边学习,或者,需要写个几十行代码,迅速解决问题,的
python更新数据库中某个字段的数据(方法详解)

连接数据库基本操作,我把每一步的操作是为什么给大家注释一下,老手自行快进. 请注意这是连接数据库操作,还不是更新. import pymysql #导包 #连接数据库 db = pymysql.connect(host='localhost', user='用户名', password='数据库密码', port=3306, db='你的数据库名字') #定义游标 cursor = db.cursor() #sql语句 sql = 'select * from students;' cursor

Python网络爬虫中的同步与异步示例详解

您可能感兴趣的文章:

相关推荐

随机推荐