python+selenium定时爬取丁香园的新型冠状病毒数据并制作出类似的地图（部署到云服务器）

2025-04-14 14:58:46

前言

硬要说这篇文章怎么来的，那得先从那几个吃野味的人开始说起…… 前天睡醒：假期还有几天；昨天睡醒：假期还有十几天；今天睡醒：假期还有一个月…… 每天过着几乎和每个假期一样的宅男生活，唯一不同的是玩手机已不再是看剧、看电影、打游戏了，而是每天都在关注着这次新冠肺炎疫情的新闻消息，真得希望这场战“疫”快点结束，让我们过上像以前一样的生活。武汉加油！中国加油！！

本次爬取的网站是丁香园点击跳转，相信大家平时都是看这个的吧。

一、准备

python3.7

selenium：自动化测试框架，直接pip install selenium安装即可
pyecharts：以一切皆可配置而闻名的python封装的js画图工具，其官方文档写的很详细了点击跳转。
直接pip install pyecharts安装即可，同时还需安装以下地图的包：

世界地图：pip install echarts-countries-pypkg 中国地图：pip install echarts-china-provinces-pypkg 中国城市地图：pip install echarts-china-cities-pypkg

云服务器

二、爬取数据+画图

第一步、分析页面

先用个requests模块请求一下，看能不能拿到数据：

import requests
url='https://ncov.dxy.cn/ncovh5/view/pneumonia_peopleapp?from=timeline&isappinstalled=0'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
r=requests.get(url,headers=headers)
print(r.text)

发现数据是乱码的并且注意到末尾处有如下字样：

<noscript>You need to enable JavaScript to run this app.</noscript>

意思是需要执行js代码，百度了一下发现这个页面应该是用react.js来开发的。限于自身技术能力，这个时候，我就只能用selenium了，它是完全模拟浏览器的操作，也即能执行js代码。

并且我需要拿到的数据并不多，也就一个页面而已，所以耗时也可以接受。

那么我要拿哪些数据呢，如下：

截至当前时间的全国数据统计
病毒相关描述信息
全国各个省份及其城市的所有数据
全世界各个地区的数据

经过查看，发现这几处需要进行点击，才能获取到更多数据信息：

第二步、编写代码

导入相关包：

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys
import parsel
import time
import json
import os
import datetime
import pyecharts
from pyecharts import options as opts

定义爬取数据、保存数据的函数：

def get_save_data():
 '''
 部署到云服务器上时，注意:要安装pyvirtualdisplay模块，
 并且把下面的前5条注释掉的代码给去掉注释，再运行，不然会报错。
 '''
 #from pyvirtualdisplay import Display
 #display = Display(visible=0, size=(800, 600))
 #display.start()
 options=webdriver.ChromeOptions()
 #options.add_argument('--disable-gpu')
 #options.add_argument("--no-sandbox")
 options.add_argument('--headless') #采用无头模式进行爬取
 d=webdriver.Chrome(options=options)
 d.get('https://ncov.dxy.cn/ncovh5/view/pneumonia_peopleapp?from=timeline&isappinstalled=0')
 time.sleep(2)
 ActionChains(d).move_to_element(d.find_element_by_xpath('//p[@class="mapTap___1k3MH"]')).perform()
 time.sleep(2)
 d.find_element_by_xpath('//span[@class="openIconView___3hcbn"]').click()
 time.sleep(2)
 for i in range(3):
 mores=d.find_elements_by_xpath('//div[@class="areaBox___3jZkr"]')[1].find_elements_by_xpath('./div')[3:-1]
 ActionChains(d).move_to_element(d.find_element_by_xpath('//div[@class="rumorTabWrap___2kiW4"]/p')).perform()
 mores[i].click()
 time.sleep(2)
 response=parsel.Selector(d.page_source)
 china=response.xpath('//div[@class="areaBox___3jZkr"]')[0]
 world=response.xpath('//div[@class="areaBox___3jZkr"]')[1]

 # 下面是病毒相关描述信息的获取与处理
 content=response.xpath('//div[@class="mapTop___2VZCl"]/div[1]//text()').getall()
 s=''
 for i,j in enumerate(content):
 s=s+j
 if (i+1)%2 == 0:
 s=s+'\n'
 if j in ['确诊','疑似','重症','死亡','治愈']:
 s=s+'\n'
 now=s.strip()
 msg=response.xpath('//div[@class="mapTop___2VZCl"]/div//text()').getall()
 s=''
 for i in msg:
 if i not in now:
 s=s+i+'\n'
 msg=s.strip()
 content=msg+'\n\n'+now

 # 下面是全国数据的获取
 china_data=[]
 for div_list in china.xpath('./div')[2:-1]:
 flag=0
 city_list=[]
 for div in div_list.xpath('./div'):
 if flag == 0:
 if div.xpath('./p[1]/text()').get() is not None:
 item={}
 item['省份']=div.xpath('./p[1]/text()').get()
 item['确诊']=div.xpath('./p[2]/text()').get() if div.xpath('./p[2]/text()').get() is not None else '0'
 item['死亡']=div.xpath('./p[3]/text()').get() if div.xpath('./p[3]/text()').get() is not None else '0'
 item['治愈']=div.xpath('./p[4]/text()').get() if div.xpath('./p[4]/text()').get() is not None else '0'
 flag=1
 else:
 if div.xpath('./p[1]/span/text()').get() is not None:
 temp={}
 temp['城市']=div.xpath('./p[1]/span/text()').get()
 temp['确诊']=div.xpath('./p[2]/text()').get() if div.xpath('./p[2]/text()').get() is not None else '0'
 temp['死亡']=div.xpath('./p[3]/text()').get() if div.xpath('./p[3]/text()').get() is not None else '0'
 temp['治愈']=div.xpath('./p[4]/text()').get() if div.xpath('./p[4]/text()').get() is not None else '0'
 city_list.append(temp)
 item.update({'city_list':city_list})
 china_data.append(item)

 # 下面是全球数据的获取
 world_data=[]
 for div_list in world.xpath('./div')[2:-1]:
 flag=0
 country_list=[]
 for div in div_list.xpath('./div'):
 if flag == 0:
 if div.xpath('./p[1]/text()').get() is not None:
 item={}
 item['地区']=div.xpath('./p[1]/text()').get()
 item['确诊']=div.xpath('./p[2]/text()').get() if div.xpath('./p[2]/text()').get() is not None else '0'
 item['死亡']=div.xpath('./p[3]/text()').get() if div.xpath('./p[3]/text()').get() is not None else '0'
 item['治愈']=div.xpath('./p[4]/text()').get() if div.xpath('./p[4]/text()').get() is not None else '0'
 flag=1
 else:
 if div.xpath('./p[1]/span/text()').get() is not None:
 temp={}
 temp['国家']=div.xpath('./p[1]/span/text()').get()
 temp['确诊']=div.xpath('./p[2]/text()').get() if div.xpath('./p[2]/text()').get() is not None else '0'
 temp['死亡']=div.xpath('./p[3]/text()').get() if div.xpath('./p[3]/text()').get() is not None else '0'
 temp['治愈']=div.xpath('./p[4]/text()').get() if div.xpath('./p[4]/text()').get() is not None else '0'
 country_list.append(temp)
 item.update({'country_list':country_list})
 world_data.append(item)
 d.quit()

 # 下面是保存数据的操作
 if not os.path.exists('./json'):
 os.makedirs('./json')
 if not os.path.exists('./txt'):
 os.makedirs('./txt')
 now_time=datetime.datetime.now().strftime("%Y-%m-%d") #获取当前日期
 index=list(range(len(china_data)))
 data=dict(zip(index,china_data))
 json_str = json.dumps(data, indent=4,ensure_ascii=False)
 with open(f'./json/{now_time}.json', 'w', encoding='utf-8') as f:
 f.write(json_str)
 index=list(range(len(world_data)))
 data=dict(zip(index,world_data))
 json_str = json.dumps(data, indent=4,ensure_ascii=False)
 with open(f'{now_time}.json', 'w', encoding='utf-8') as f:
 f.write(json_str)
 with open(f'./txt/{now_time}.txt', 'w', encoding='utf-8') as f:
 f.write(content)

定义画地图的函数，输出是一个html文件：

def get_html():
 # 首先是加载爬取到的数据
 json_files=os.listdir('./json')
 json_data=[]
 date=[]
 for i in json_files:
 with open(f'./json/{i}','r',encoding='utf-8') as f:
 date.append(i.split('.')[0])
 temp=json.load(f)
 json_data.append(list(temp.values()))
 txt_files=os.listdir('./txt')
 content_list=[]
 for i in txt_files:
 with open(f'./txt/{i}','r',encoding='utf-8') as f:
 content_list.append(f.read())
 # 下面开始画图
 t=pyecharts.charts.Timeline(init_opts=opts.InitOpts(width='1400px',height='1400px',page_title='武汉加油！中国加油！！'))
 for s,(i,data) in enumerate(zip(date,json_data)):
 value=[] # 储存确诊人数
 attr=[] # 储存城市名字
 for each in data:
 attr.append(each['省份'])
 value.append(int(each['确诊']))
 map0 = (
 pyecharts.charts.Map()
 .add(
 series_name='该省份确诊数',data_pair=list(zip(attr,value)),maptype='china',is_map_symbol_show=True,zoom=1.1
 )
 .set_global_opts(title_opts=opts.TitleOpts(title="武汉加油！中国加油！！", # 标题
 subtitle=content_list[s], # 副标题
 title_textstyle_opts=opts.TextStyleOpts(color='red',font_size=30), # 标题文字
 subtitle_textstyle_opts=opts.TextStyleOpts(color='black',font_size=20),item_gap=20), # 副标题文字
 visualmap_opts=opts.VisualMapOpts(pieces=[{"max": 9, "min": 1,'label':'1-9','color':'#FFEBCD'},
 {"max": 99, "min": 10,'label':'10-99','color':'#F5DEB3'},
 {"max": 499, "min": 100,'label':'100-499','color':'#F4A460'},
 {"max": 999, "min": 500,'label':'500-999','color':'#FA8072'},
 {"max": 9999,"min": 1000,'label':'1000-9999','color':'#ee2c0f'},
 {"min": 10000,'label':'≥10000','color':'#5B5B5B'}],
 is_piecewise=True,item_width=45,item_height=30,textstyle_opts=opts.TextStyleOpts(font_size=20))
 )
 )
 t.add(map0, "{}".format(i))
 # 将这幅图保存为html文件
 t.render('武汉加油！中国加油！！.html')

程序入口：

if __name__ == '__main__':
 get_save_data()
 get_html()

第三步、结果展示

运行该程序之后，会在当前目录下生成一个武汉加油！中国加油！！.html的文件，打开之后如下：

ps：因为只能上传图片，所以我就将html转为图片了，html是动态的，有时间轴可以拖动，由于昨天才刚开始爬数据，所以只有两天的数据。下面附上转图片的代码：

ps：又因为这个Timeline时间线轮播多图，配置不了背景颜色，发现生成的图片放大看变成黑色背景的，于是研究了一下源码，自己修改了一下js那块的代码，然后就生成可以设置背景颜色的图片了

from selenium import webdriver
import base64
import os
options=webdriver.ChromeOptions()
options.add_argument('--headless') #采用无头模式进行爬取
d=webdriver.Chrome(options=options)
url='file://'+os.path.abspath('武汉加油！中国加油！！.html')
d.get(url)
def decode_base64(data: str) -> bytes:
 """Decode base64, padding being optional.

 :param data: Base64 data as an ASCII byte string
 :returns: The decoded byte string.
 """
 missing_padding = len(data) % 4
 if missing_padding != 0:
 data += "=" * (4 - missing_padding)
 return base64.decodebytes(data.encode("utf-8"))
def save_as_png(image_data: bytes, output_name: str):
 with open(output_name, "wb") as f:
 f.write(image_data)
js = """
 var ele = document.querySelector('div[_echarts_instance_]');
 var mychart = echarts.getInstanceByDom(ele);
 return mychart.getDataURL({
 type: 'png',
 pixelRatio: 2,
 backgroundColor:'#FFFFFF',
 excludeComponents: ['toolbox']
 });
"""
content=d.execute_script(js)
content_array = content.split(",")
image_data = decode_base64(content_array[1])
save_as_png(image_data, '武汉加油！中国加油！！.png')
d.quit()

三、部署到云服务器

1.定时运行获取数据

首先将爬取数据的函数，即get_save_data()单独放到一个py文件中（我命名为：2019-nCoV.py）。然后修改定时任务/etc/crontab文件，如下：

2.通过微信获取地图（html文件）

把画地图的函数，即get_html()添加到个人微信机器人当中，然后设置特定判断条件，在手机微信上向文件传输助手发送设定好的指令，执行get_html()函数，然后把执行函数后生成的html文件发给文件传输助手，从而获取到当前的疫情地图。

个人微信机器人的代码我就不再展示了，可以看我之前的文章：python实现微信自动回复机器人

特定判断的语句如下：

if '2019' == msg['Text']:
 get_html()
 itchat.send('@fil@%s'%'武汉加油！中国加油！！.html',toUserName='filehelper')

同时，也可以把刚刚的获取数据的函数一起添加进去的，然后同样通过发送特定指令运行函数，而获取数据，我这里不加进去呢，是因为我要设置个定时任务，定时获取就行了；并且我也可以通过给文件传输助手发送shell命令，执行py文件。

把下面的代码加进个人微信机器人py文件里就行了。

import subprocess
def cmd(command):
 output=subprocess.getoutput(command)
 return output

并给出我的特定判断语句：

if 'cmd' in msg['Text']:
 output=cmd(msg['Text'][3:])
 if output != '':
 itchat.send(output, toUserName='filehelper')

四、运行展示

如上图所示：我先是执行了爬取数据的函数，即我调用了云服务器上的定时爬取数据的py文件，然后再输入指令获取当前的疫情地图，打开后像上面的疫情地图一样。

写在最后

世界的疫情地图我没有画，是因为pyecharts的世界地图各个地区是用英文命名的，跟获取到的地区匹配不上，其实可以加个中文转英文给它，那就可以了，我懒的弄了，有兴趣的朋友可以试一试哦

一开始，我只是在那些爬虫微信群上看到：今天这谁在爬丁香园的数据，过几天又看到那谁又在爬丁香园的数据，而且还提出各种问题来讨论。我实在是看不下去了，于是就有了这一篇文章（反正在家闲着也是闲着）

然后呢，今天学校发通知说校外的大四学生也可以申请vpn，然后在家就可以查看和下载知网的文献了。准备毕业的我突然惊了，我的论文还未开始写呢！看来是时候了……

其实我是想回学校再写的，但是这次的新冠肺炎疫情来势凶猛，真的希望快点好起来啊~

武汉加油！中国加油！！

总结

以上所述是小编给大家介绍的python+selenium定时爬取丁香园的新冠病毒每天的数据并制作出类似的地图（部署到云服务器），希望对大家有所帮助！

python实现集中式的病毒扫描功能详解

本文实例讲述了python实现集中式的病毒扫描功能.分享给大家供大家参考,具体如下: 一点睛本次实践实现了一个集中式的病毒扫描管理,可以针对不同业务环境定制扫描策略,比如扫描对象.描述模式.扫描路径.调度频率等.案例实现的架构图如下,首先业务服务器开启clamd服务(监听3310端口),管理服务器启用多线程对指定的服务集群进行扫描,扫描模式.扫描路径会传递到clamd,最后返回扫描结果给管理服务器端. 本次实战通过ClamdNetworkSocket()方法实现与业务服务器建立扫描socke
使用Python制作新型冠状病毒实时疫情图

最近一周每天早上起来第一件事,就是打开新闻软件看疫情相关的新闻.了解下自己和亲友所在城市的确诊人数,但纯数字还是缺乏一个直观的概念.那我们来做一个吧. 至于数据,从各大网站的实时疫情页面就可以拿到.以某网站为例,用requests拿到html后,发现并没有数据.不要慌,那证明是个javascript渲染的页面,即使是javascript也是需要从后台取数据的.打开Chrome开发者工具,点开network,刷新页面,点击各个请求,肯定有一个是取json的. 注意这里的返回数据是包含在一个js变量
Python实现新型冠状病毒传播模型及预测代码实例

1.传染及发病过程一个健康人感染病毒后进入潜伏期(时间长度为Q天),潜伏期之后进入发病期(时间长度为D天),发病期之后该患者有三个可能去向,分别是自愈.接收隔离.死亡. 2.模型假设潜伏期Q=7天,根据报道潜伏期为2~14天,取中间值:发病期D=10天,根据文献报告,WHO认定SARS发病期为10天,假设武汉肺炎与此相同:潜伏期的患者不具有将病毒传染给他人的能力:发病期的患者具有将病毒传染给他人的能力:患者在发病期之后不再具有将病毒传染他人的能力:假设处于发病期的患者平均每天密切接触1人,致
Python抓新型冠状病毒肺炎疫情数据并绘制全国疫情分布的代码实例

运行结果(2020-2-4日数据) 数据来源 news.qq.com/zt2020/page/feiyan.htm 抓包分析日报数据格式 "chinaDayList": [{ "date": "01.13", "confirm": "41", "suspect": "0", "dead": "1", "heal&qu
python模拟预测一下新型冠状病毒肺炎的数据

大家还好吗? 背景就不用多说了吧?本来我是初四上班的,现在延长到2月10日了.这是我工作以来时间最长的一个假期了.可惜哪也去不了.待在家里,没啥事,就用python模拟预测一下新冠病毒肺炎的数据吧.要声明的是本文纯属个人自娱自乐,不代表真实情况. 采用SIR模型,S代表易感者,I表示感染者,R表示恢复者.染病人群为传染源,通过一定几率把传染病传给易感人群,ta自己也有一定的几率被治愈并免疫,或死亡.易感人群一旦感染即成为新的传染源. 模型假设: ①不考虑人口出生.死亡.流动等情况,即人口数量保持
十行代码使用Python写一个USB病毒

大家好,我又回来了. 昨天在上厕所的时候突发奇想,当你把usb插进去的时候,能不能自动执行usb上的程序.查了一下,发现只有windows上可以,具体的大家也可以搜索(搜索关键词usb autorun)到.但是,如果我想,比如,当一个usb插入时,在后台自动把usb里的重要文件神不知鬼不觉地拷贝到本地或者上传到某个服务器,就需要特殊的软件辅助. 于是我心想,能不能用python写一个程序,让它在后台运行.每当有u盘插入的时候,就自动拷贝其中重要文件. 如何判断U盘的插入与否? 首先我们打开电脑终
python+selenium定时爬取丁香园的新型冠状病毒数据并制作出类似的地图（部署到云服务器）

前言硬要说这篇文章怎么来的,那得先从那几个吃野味的人开始说起-- 前天睡醒:假期还有几天:昨天睡醒:假期还有十几天:今天睡醒:假期还有一个月-- 每天过着几乎和每个假期一样的宅男生活,唯一不同的是玩手机已不再是看剧.看电影.打游戏了,而是每天都在关注着这次新冠肺炎疫情的新闻消息,真得希望这场战"疫"快点结束,让我们过上像以前一样的生活.武汉加油!中国加油!! 本次爬取的网站是丁香园点击跳转,相信大家平时都是看这个的吧. 一.准备 python3.7 selenium:自动化测试框架,
python爬虫实现爬取同一个网站的多页数据的实例讲解

对于一个网站的图片.文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错.Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取.本文小编带领大家通过python爬虫获取获取总页数并更改url的方法,实现爬取同一个网站的多页数据. 一.爬虫的目的从网上获取对你有需要的数据二.爬虫过程 1.获取url(网址). 2.发出请求,获得响应. 3.提取数据. 4.保存数据. 三.爬虫功能可以快速批量的获取想要的数据,不用手动的一个个下载(图片.文字音视频等) 四.使用py
Python实现抖音热搜定时爬取功能

目录抖音热搜榜 requests爬取 selenium爬取数据解析设置定时运行大家好,我是丁小杰. 上次和大家分享了Python定时爬取微博热搜示例介绍,堪称摸鱼神器,一个热榜不够看?今天我们再来爬取一下抖音热搜榜,感兴趣的小伙伴可以自己动手尝试一下哦. 抖音热搜榜链接:https://tophub.today/n/K7GdaMgdQy 整个热榜共50条数据,本次爬取的内容:排名.热度.标题.链接. requests 爬取 requests 是一种非常简单的方法,由于该页面没有反爬措施
python爬虫系列Selenium定向爬取虎扑篮球图片详解

前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员还是写个程序来进行吧! 所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取. 运行效果: http://photo.hupu.com/nba/tag/马刺 http://photo.hupu.com/nba/tag/陈露源代码: # -*- coding: utf
python 爬虫实现增量去重和定时爬取实例

前言: 在爬虫过程中,我们可能需要重复的爬取同一个网站,为了避免重复的数据存入我们的数据库中通过实现增量去重去解决这一问题本文还针对了那些需要实时更新的网站增加了一个定时爬取的功能: 本文作者同开源中国(殊途同归_): 解决思路: 1.获取目标url 2.解析网页 3.存入数据库(增量去重) 4.异常处理 5.实时更新(定时爬取) 下面为数据库的配置 mysql_congif.py: import pymysql def insert_db(db_table, issue, time_s
python爬虫之利用Selenium+Requests爬取拉勾网

一.前言利用selenium+requests访问页面爬取拉勾网招聘信息二.分析url 观察页面可知,页面数据属于动态加载所以现在我们通过抓包工具,获取数据包观察其url和参数 url="https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false" 参数: city=%E5%8C%97%E4%BA%AC ==>城市 first=true ==>无用 pn=
Python定时爬取微博热搜示例介绍

目录前言页面分析采集代码设置定时运行前言相信大家在工作无聊时,总想掏出手机,看看微博热搜在讨论什么有趣的话题,但又不方便直接打开微博浏览,今天就和大家分享一个有趣的小爬虫,定时采集微博热搜榜&热评,下面让我们来看看具体的实现方法. 页面分析热搜页热榜首页:https://s.weibo.com/top/summary?cate=realtimehot 热榜首页的榜单中共五十条数据,在这个页面,我们需要获取排行.热度.标题,以及详情页的链接. 我们打开页面后要先登录,之后使用 F
python登录并爬取淘宝信息代码示例

本文主要分享关于python登录并爬取淘宝信息的相关代码,还是挺不错的,大家可以了解下. #!/usr/bin/env python # -*- coding:utf-8 -*- from selenium import webdriver import time import datetime import traceback import logging import os from selenium.webdriver.common.action_chains import ActionC
selenium+PhantomJS爬取豆瓣读书

本文实例为大家分享了selenium+PhantomJS爬取豆瓣读书的具体代码,供大家参考,具体内容如下获取关于Python的全部书籍信息: 通过代码测试 request携带'User-Agent'及 'data'数据信息的方式均无法获取到相关信息,获取数据时,部分数据为空,导致获取过程中报错,无法获取全部数据,初步判定豆瓣读书的反爬机制较为严格:通过selenium 模拟浏览器请求的方法测试后发现,可利用 selenium 方法请求获取数据: #导入需要的模块 from selenium i
Python实现的爬取百度文库功能示例

本文实例讲述了Python实现的爬取百度文库功能.分享给大家供大家参考,具体如下: # -*- coding: utf-8 -*- from selenium import webdriver from bs4 import BeautifulSoup from docx import Document from docx.enum.text import WD_ALIGN_PARAGRAPH# 用来居中显示标题 from time import sleep from selenium.webd

python+selenium定时爬取丁香园的新型冠状病毒数据并制作出类似的地图（部署到云服务器）

前言

一、准备

二、爬取数据+画图

三、部署到云服务器

四、运行展示

相关推荐

随机推荐