Python如何爬取实时变化的WebSocket数据的方法

2025-12-03 16:30:05

一、前言

作为一名爬虫工程师，在工作中常常会遇到爬取实时数据的需求，比如体育赛事实时数据、股市实时数据或币圈实时变化的数据。如下图：

Web 领域中，用于实现数据'实时'更新的手段有轮询和 WebSocket 这两种。轮询指的是客户端按照一定时间间隔（如 1 秒）访问服务端接口，从而达到 '实时' 的效果，虽然看起来数据像是实时更新的，但实际上它有一定的时间间隔，并不是真正的实时更新。轮询通常采用拉模式，由客户端主动从服务端拉取数据。

WebSocket 采用的是推模式，由服务端主动将数据推送给客户端，这种方式是真正的实时更新。

二、什么是 WebSocket

WebSocket是一种在单个TCP连接上进行全双工通信的协议。它使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就直接可以创建持久性的连接，并进行双向数据传输。

WebSocket 优点

较少的控制开销：只需要进行一次握手，携带一次请求头信息即可，后续只传输数据即可，相比 HTTP 每次请求都携带请求头，WebSocket 非常省资源。
更强的实时性：由于服务器可以主动推送消息，这使得延迟变得可以忽略不计，相比 HTTP 轮询的时间间隔，WebSocket 可以在相同的时间内进行多次传输。
二进制支持：WebSocket 支持二进制帧，这意味着传输更节省。
……

爬虫面对 HTTP 和 WebSocket

Python 中的网络请求库非常多，Requests 是最常用的请求库之一，它可以模拟发送网络请求。但是这些请求都是基于 HTTP 协议的。在面对 WebSocket 的时候 Requests 就发挥不料作用了，必须使用能够连接 WebSocket 的库。

三、爬取思路

这里以莱特币官网 http://www.laiteb.com/ 实时数据为例。WebSocket 的握手只发生一次，所以如果需要通过浏览器开发者工具观察网络请求，则需要在打开页面的情况下，打开浏览器开发者工具，定位到 NewWork 选项卡，并输入或刷新当前页面，才能观察到 WebSocket 的握手请求和数据传输情况。这里以 Chrome 浏览器为例:

在开发者工具中提供了筛选功能，其中 WS 选项代表只显示 WebSocket 连接的网络请求。

这时候可以看到请求记录列表中有一条名为 realTime 的记录，鼠标左键点击它后，开发者工具会分为左右两栏，右侧列出本条请求记录的详细信息：

与 HTTP 请求不同的是，WebSocket 连接地址以 ws 或 wss 开头。连接成功的状态码不是 200，而是 101。

Headers 标签页记录的是 Request 和 Response 信息，而 Frames 标签页中记录的则是双方互传的数据，也是我们需要爬取的数据内容：

Frames 图中绿色箭头向上的数据是客户端发送给服务端的数据，橙色箭头向下的数据是服务端推送给客户端的数据。

从数据顺序中可以看到，客户端先发送：

{"action":"subscribe","args":["QuoteBin5m:14"]}

然后服务端才会推送信息(一直推送)：

代码如下:

{"group":"QuoteBin5m:14","data":[{"low":"55.42","high":"55.63","open":"55.42","close":"55.59","last_price":"55.59","avg_price":"55.5111587372932781077","volume":"40078","timestamp":1551941701,"rise_fall_rate":"0.0030674846625766871","rise_fall_value":"0.17","base_coin_volume":"400.78","quote_coin_volume":"22247.7621987324"}]}

所以，从发起握手到获得数据的整个流程为：

那么，现在问题来了：

握手怎么弄？
连接保持怎么弄？
消息发送和接收怎么弄？
有什么库可以轻松实现吗？

四、aiowebsocket

Python 库中用于连接 WebSocket 的有很多，但是易用、稳定的有 websocket-client(非异步)、websockets(异步)、aiowebsocket（异步）。

可以根据项目需求选择三者之一，今天介绍的是异步 WebSocket 连接客户端 aiowebsocket。其 Github 地址为： https://github.com/asyncins/aiowebsocket 。

ReadMe中介绍到： AioWebSocket是一个遵循 WebSocket 规范的异步 WebSocket 客户端，相对于其他库它更轻、更快。

它的安装和其他库一样简单，使用 pip install aiowebsocket 即可。安装好后，我们可以根据 ReadMe 中提供的示例代码来测试：

import asyncio
import logging
from datetime import datetime
from aiowebsocket.converses import AioWebSocket

async def startup(uri):
 async with AioWebSocket(uri) as aws:
  converse = aws.manipulator
  message = b'AioWebSocket - Async WebSocket Client'
  while True:
   await converse.send(message)
   print('{time}-Client send: {message}'
     .format(time=datetime.now().strftime('%Y-%m-%d %H:%M:%S'), message=message))
   mes = await converse.receive()
   print('{time}-Client receive: {rec}'
     .format(time=datetime.now().strftime('%Y-%m-%d %H:%M:%S'), rec=mes))

if __name__ == '__main__':
 remote = 'ws://echo.websocket.org'
 try:
  asyncio.get_event_loop().run_until_complete(startup(remote))
 except KeyboardInterrupt as exc:
  logging.info('Quit.')

运行后的结果输出为：

2019-03-07 15:43:55-Client send: b'AioWebSocket - Async WebSocket Client'
2019-03-07 15:43:55-Client receive: b'AioWebSocket - Async WebSocket Client'
2019-03-07 15:43:55-Client send: b'AioWebSocket - Async WebSocket Client'
2019-03-07 15:43:56-Client receive: b'AioWebSocket - Async WebSocket Client'
2019-03-07 15:43:56-Client send: b'AioWebSocket - Async WebSocket Client'
……

send 表示客户端向服务端发送的消息

recive 表示服务端向客户端推送的消息

五、编码获取数据

回到这一次的爬取需求，目标网站是莱特币官网：

从刚才的网络请求记录中，我们得知目标网站的 WebSocket 地址为： wss://api.bbxapp.vip/v1/ifcontract/realTime ,从地址中可以看出目标网站使用的是 wss，也就是 ws 的安全版，它们的关系跟 HTTP/HTTPS 一样。aiowebsocket 会自动处理并识别 ssl，所以我们并不需要作额外的操作，只需要将目标地址赋值给连接 uri 即可：

import asyncio
import logging
from datetime import datetime
from aiowebsocket.converses import AioWebSocket

async def startup(uri):
 async with AioWebSocket(uri) as aws:
  converse = aws.manipulator
  while True:
   mes = await converse.receive()
   print('{time}-Client receive: {rec}'
     .format(time=datetime.now().strftime('%Y-%m-%d %H:%M:%S'), rec=mes))

if __name__ == '__main__':
 remote = 'wss://api.bbxapp.vip/v1/ifcontract/realTime'
 try:
  asyncio.get_event_loop().run_until_complete(startup(remote))
 except KeyboardInterrupt as exc:
  logging.info('Quit.')

运行代码后观察输出，你会发现什么都没有发生。既没有内容输出，也没有断开连接，程序一直在运行，但是什么都没有：

这是为什么呢？

是对方不接受我方的请求吗？

还是有什么反爬虫限制呢？

实际上，刚才的流程图可以解释这个问题：

整个流程中有一步是需要客户端给服务端发送指定的消息，服务端验证后才会不停推送数据。所以，应该在消息读取前、握手连接后加上消息发送的代码：

import asyncio
import logging
from datetime import datetime
from aiowebsocket.converses import AioWebSocket

async def startup(uri):
 async with AioWebSocket(uri) as aws:
  converse = aws.manipulator
  # 客户端给服务端发送消息
  await converse.send('{"action":"subscribe","args":["QuoteBin5m:14"]}')
  while True:
   mes = await converse.receive()
   print('{time}-Client receive: {rec}'
     .format(time=datetime.now().strftime('%Y-%m-%d %H:%M:%S'), rec=mes))

if __name__ == '__main__':
 remote = 'wss://api.bbxapp.vip/v1/ifcontract/realTime'
 try:
  asyncio.get_event_loop().run_until_complete(startup(remote))
 except KeyboardInterrupt as exc:
  logging.info('Quit.')

保存后运行，就会看到数据源源不断的推送过来：

到这里，爬虫就能够获取到想要的数据了。

aiowebsocket 做了什么

代码不长，使用的时候只需要将目标网站 WebSocket 地址填入，然后按照流程发送数据即可，那么 aiowebsocket 在这个过程中做了什么呢？

首先，aiowebsocket 根据 WebSocket 地址，向指定的服务端发送握手请求，并校验握手结果。
然后，在确认握手成功后，将数据发送给服务端。
整个过程中为了保持连接不断开，aiowebsocket 会自动与服务端响应 ping pong。
最后，aiowebsocket 读取服务端推送的消息

【奎因：】如果你认为 aiowebsocket 帮助了你，那么请你到 Github https://github.com/asyncins/aiowebsocket 上给一个 Star。如果在使用当中发现问题或者希望给 aiowebsocket 提建议，那么也可以到 Github 上提出。只要你提出建议，就一定能够帮助 aiowebsocket 变的更好，而 aiowebsocket 也能够继续为你服务。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

详解基于django实现的webssh简单例子

本文介绍了详解基于django实现的webssh简单例子,分享给大家,具体如下: 说明新建一个 django 程序,本文为 chain. 以下仅为简单例子,实际应用可根据自己平台情况进行修改. 打开首页后,需要输入1,后台去登录主机,然后返回登录结果. 正常项目可以post 主机和登录账户,进行权限判断,然后去后台读取账户密码,进行登录. djang后台需要安装以下模块安装后会有一个版本号报错,不影响 channels==2.0.2 channels-redis==2.1.0 amq
python实现WebSocket服务端过程解析

一种类似Flask开发的WebSocket-Server服务端框架,适用python3.X 1.安装模块Pywss pip install pywss 2.搭建简易服务器 2.1 服务端代码代码简介 route: 注册请求路径 example_1(request, data): request: socket句柄,能够发送和接收数据接.发送数据request.ws.send(data),收数据request.ws_recv(1024) data: 客户端发送的数据存于此处 from pywss
详解Django-channels 实现WebSocket实例

引入先安装三个模块 pip install channels pip install channels_redis pip install pywin32 创建一个Django项目和一个app 项目名随意,app名随意.这里项目名为 django_websocket_demo ,app名 chat 把app文件夹下除了 views.py 和 __init__.py 的文件都删了,最终项目目录结构如下: django_websocket_demo/ manage.py django_websoc
Django通过dwebsocket实现websocket的例子

与django推荐的channel不同,dwebsocket使用更加方便简单使用方法1: 只需views.py文件中,将对应的视图函数添加装饰器 accept_websocket--可以接受websocket请求和普通http请求 require_websocket----只接受websocket请求,拒绝普通http请求 from dwebsocket.decorators import accept_websocket,require_websocket @accept_websocket
Python如何爬取实时变化的WebSocket数据的方法

一.前言作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据.股市实时数据或币圈实时变化的数据.如下图: Web 领域中,用于实现数据'实时'更新的手段有轮询和 WebSocket 这两种.轮询指的是客户端按照一定时间间隔(如 1 秒)访问服务端接口,从而达到 '实时' 的效果,虽然看起来数据像是实时更新的,但实际上它有一定的时间间隔,并不是真正的实时更新.轮询通常采用拉模式,由客户端主动从服务端拉取数据. WebSocket 采用的是推模式,由服务端主动将数
通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)

在学习python的时候,一定会遇到网站内容是通过 ajax动态请求.异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看本文内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一获取淘宝评论时,ajax请求链接(url) 二获取该ajax请求返回的json数据三使用python解析json数据
如何实现python爬虫爬取视频时实现实时进度条显示

目录一.全部代码展示二.解释 1.with closing with用法(实现上下文管理) closing用法(完美解决上述问题) 2.文件流stream 3.response.headers['content-length'] 4.response.iter_content() 5.\r和% 三.结果展示四.总结前言: 在爬取并下载网页上的视频的时候,我们需要实时进度条,这可以帮助我们更直观的看到视频的下载进度. 一.全部代码展示 from contextlib import clos
Python实现爬取马云的微博功能示例

本文实例讲述了Python实现爬取马云的微博功能.分享给大家供大家参考,具体如下: 分析请求我们打开 Ajax 的 XHR 过滤器,然后一直滑动页面加载新的微博内容,可以看到会不断有Ajax请求发出. 我们选定其中一个请求来分析一下它的参数信息,点击该请求进入详情页面,如图所示: 可以发现这是一个 GET 请求,请求的参数有 6 个:display.retcode.type.value.containerid 和 page,观察这些请求可以发现只有 page 在变化,很明显 page 是用来控
Python爬虫爬取杭州24时温度并展示操作示例

本文实例讲述了Python爬虫爬取杭州24时温度并展示操作.分享给大家供大家参考,具体如下: 散点图爬虫杭州今日24时温度 https://www.baidutianqi.com/today/58457.htm 利用正则表达式爬取杭州温度面向对象编程图表展示(散点图 / 折线图) 导入相关库 import requests import re from matplotlib import pyplot as plt from matplotlib import font_manager i
Python实现爬取网页中动态加载的数据

在使用python爬虫技术采集数据信息时,经常会遇到在返回的网页信息中,无法抓取动态加载的可用数据.例如,获取某网页中,商品价格时就会出现此类现象.如下图所示.本文将实现爬取网页中类似的动态加载的数据. 1. 那么什么是动态加载的数据? 我们通过requests模块进行数据爬取无法每次都是可见即可得,有些数据是通过非浏览器地址栏中的url请求得到的.而是通过其他请求请求到的数据,那么这些通过其他请求请求到的数据就是动态加载的数据.(猜测有可能是js代码当咱们访问此页面时就会发送得get请求,到其
python如何爬取动态网站

python有许多库可以让我们很方便地编写网络爬虫,爬取某些页面,获得有价值的信息!但许多时候,爬虫取到的页面仅仅是一个静态的页面,即网页的源代码,就像在浏览器上的"查看网页源代码"一样.一些动态的东西如javascript脚本执行后所产生的信息,是抓取不到的,这里暂且先给出这么一些方案,可用于python爬取js执行后输出的信息. 1.两种基本的解决方案 1.1 用dryscrape库动态抓取页面 js脚本是通过浏览器来执行并返回信息的,所以,抓取js执行后的页面,一个最直接的方
使用Python爬虫爬取小红书完完整整的全过程

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python进击者 ,作者kuls Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 小红书首先,我们打开之前大家配置好的charles 我们来简单抓包一下小红书小程序(注意这里是小程序,不是app) 不选择app的原因是,小红书的App有点难度,参照网上的一些思路,还是选择了小程序 1
用python爬虫爬取CSDN博主信息

一.项目介绍爬取网址:CSDN首页的Python.Java.前端.架构以及数据库栏目.简单分析其各自的URL不难发现,都是https://www.csdn.net/nav/+栏目名样式,这样我们就可以爬取不同栏目了. 以Python目录页为例,如下图所示: 爬取内容:每篇文章的博主信息,如博主姓名.码龄.原创数.访问量.粉丝数.获赞数.评论数.收藏数 (考虑到周排名.总排名.积分都是根据上述信息综合得到的,对后续分析没实质性的作用,这里暂不爬取.) 不想看代码的朋友可直接跳到第三部分~ 二.S
教你如何使用Python快速爬取需要的数据

一.基础第三方库使用 1.基本使用方法 """例""" from urllib import request response = request.urlopen(r'http://bbs.pinggu.org/') #返回状态 200证明访问成功 print("返回状态码: "+str(response.status)) #读取页面信息转换文本并进行解码,如果本身是UTF-8就不要,具体看页面格式 #搜索"char

Python如何爬取实时变化的WebSocket数据的方法

相关推荐

随机推荐