Python实战之异步获取中国天气信息

2025-07-02 08:38:28

前言

本来是想要更新scrapy的，但是怎么说呢，这玩意不难，看着官方文档，基本上就能做，主要是前面的如果你的爬虫基础不好的话，这个scrapy你也玩不好，而且对于大部分的人来说安装scrapy可能都是个问题，因为有一些历史遗留的问题，毕竟是从python2过来的老框架。当然还有个原因，我要做的东西，用不上scrapy，能够用上scrapy如果只是做爬虫，那必然是分布式爬虫，但是我这里要做的可能只是一个客户端，也就是一个spider采集软件，所以这个scrapy没法上。

目标

今天我们要搞的是获取天气，用的API是中国天气网。

BaseUrl = "http://wthrcdn.etouch.cn/weather_mini?city={}"

网上呢也有很多，那个直接爬取中国天气网的爬虫，但是我就是搞不懂，为啥非要去网页里面然后去xpath或者正则去搞，明明用的都是同一个api出来的数据，我为啥要去页面把人家渲染后的结果去反向解析出数据？我直接拿数据不好嘛？

请求格式

回到这里，咱们的这个接口呢，是一个get请求，然后的话，那啥只需要把城市或者编号放在city那个字段就行了，返回结果是个json，我们把这玩意变成字典后是这样的

{'data':
 {'yesterday':
 {'date': '5日星期六', 'high': '高温 16℃', 'fx': '东北风', 'low': '低温 9℃', 'fl': '<![CDATA[3级]]>', 'type': '多云'},
 'city': '九江',
  'forecast': [{'date': '6日星期天', 'high': '高温 12℃', 'fengli': '<![CDATA[3级]]>', 'low': '低温 7℃', 'fengxiang': '东北风', 'type': '中雨'},
 {'date': '7日星期一', 'high': '高温 14℃', 'fengli': '<![CDATA[2级]]>', 'low': '低温 7℃', 'fengxiang': '北风', 'type': '多云'},
 {'date': '8日星期二', 'high': '高温 19℃', 'fengli': '<![CDATA[2级]]>', 'low': '低温 8℃', 'fengxiang': '东南风', 'type': '晴'},
 {'date': '9日星期三', 'high': '高温 21℃', 'fengli': '<![CDATA[2级]]>', 'low': '低温 11℃', 'fengxiang': '东南风', 'type': '晴'},
 {'date': '10日星期四', 'high': '高温 23℃', 'fengli': '<![CDATA[1级]]>', 'low': '低温 11℃', 'fengxiang': '南风', 'type': '多云'}
 ],
 'ganmao': '感冒多发期，适当减少外出频率，适量补充水分，适当增减衣物。', 'wendu': '8'}, 'status': 1000, 'desc': 'OK'}

请求限制

这里不得不说一下，中国天气网 yyds 这个接口完全没有限制。为啥，我要做的是获取全国的天气信息，包括县城，中国大大小小几千个县城，而且还要分时段去分析，所以每天的请求访问至少2w起步。如果有限制的话，咱们就得那啥反反爬了，但是通过我的测试，没问题。

requests非异步获取

来，我们来先做一个对比，没有对比就没有伤害是吧，由于非常简单我就直接上代码了。

import requests
from datetime import datetime

class GetWeather(object):

    urlWheather = "http://wthrcdn.etouch.cn/weather_mini?city={}"
    requests = requests
    error = {}
    today = datetime.today().day
    weekday = datetime.today().weekday()
    week = {0:"星期一",1:"星期二",2:"星期三",3:"星期四",4:"星期五",5:"星期六",6:"星期天"}

    def __getday(self)->str:
        day = str(self.today)+"日"+self.week.get(self.weekday)
        return day

    def get_today_wheather(self,city:str)->dict:

        data = self.getweather(city)
        data = data.get("data").get("forecast")
        today = self.__getday()
        for today_w in data:
            if(today_w.get("date")==today):
                return today_w

    def getweather(self,city:str,timeout:int=3)->dict:
        url = self.urlWheather.format(city)
        try:
            resp = self.requests.get(url,timeout=timeout)
            jsondata =  resp.json()
            return jsondata
        except Exception as e:
            self.error['error'] = "天气获取异常"
            return self.error
    def getweathers(self,citys:list,timeout:int=3):
        wheathers_data = {}
        for city in citys:
            url = self.urlWheather.format(city)
            try:
                resp = self.requests.get(url=url,timeout=timeout)
                wheather_data = resp.json()
                wheathers_data[city]=wheather_data
            except Exception as e:
                self.error['error'] = "天气获取异常"
                return self.error

        return wheathers_data

if __name__ == '__main__':
    getwheather = GetWeather()

    start = time.time()
    times = 1
    for i in range(5000):
        data = getwheather.get_today_wheather("九江")
        if((times%100==0)):
            print(data,"第",times,"次访问")
        times+=1

    print("访问",times,"次耗时",time.time()-start,"秒")

这段代码呢，我做了一个简单的封装。我们来看看结果，5000次访问花了多久

这里我5000次重复访问的是同一个城市九江

异步获取

这个代码的话我是没有封装的，所以看起来比较乱。这里有几个注意点先说一下

系统上限

由于这个，异步的话还是使用的操作系统的一个底层嘛，所以这个并发是有上限的，因为这个协程异步是要不断切换的是吧。看起来有点像python自己的多线程，只是这个“多线程”完全是当IO的时候才会切换，不然不会切换。所以哟啊限制一下

编码

import time

import aiohttp
from datetime import datetime
import asyncio

BaseUrl = "http://wthrcdn.etouch.cn/weather_mini?city={}"

WeekIndex = {0:"星期一",1:"星期二",2:"星期三",3:"星期四",4:"星期五",5:"星期六",6:"星期天"}

today = datetime.today().day
day = str(today)+"日"+WeekIndex.get(datetime.today().weekday())

TIMES = 0

async def request(city:str,semaphore:asyncio.Semaphore,timeout:int = 3):
    url = BaseUrl.format(city)
    try:
        async with semaphore:
            async with aiohttp.request("GET", url) as resp:
                data = await resp.json(content_type='')
                return data
    except Exception as e:
        raise e

def getwheater(task):
    data = task.result()
    return data

def get_today_weather(task):
    global TIMES
    data = task.result() #得到返回结果

    data = data.get("data").get("forecast")

    for today_w in data:
        if (today_w.get("date") == day):
            TIMES+=1#只有IO操作的时候才会切换，所以这个++操作还是一个原子性操作
            if(TIMES%100==0):
                print(today_w,"第",TIMES,"次访问")
            return today_w

if __name__ == '__main__':
    semaphore = asyncio.Semaphore(500)
    #操作系统上限是同一个时刻509/1024个并发,windows509 linux 1024
    start = time.time()
    tasks = []
    for i in range(5000):
        c = request("九江",semaphore,3)
        task = asyncio.ensure_future(c)
        task.add_done_callback(get_today_weather)
        tasks.append(task)
    loop = asyncio.get_event_loop()
    loop.run_until_complete(asyncio.wait(tasks))
    print("耗时",time.time() - start,"秒")

到此这篇关于Python实战之异步获取中国天气信息的文章就介绍到这了,更多相关Python获取天气信息内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

基于Python爬虫采集天气网实时信息

相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20厘米.此外,贵州中东部.湖南中北部.湖北东南部.江西西北部有冻雨.言归正传,天气无时无刻都在陪伴着我们,今天小编带大家利用Python网络爬虫来实现天气情况的实时采集. 此次的目标网站是绿色呼吸网.绿色呼吸网站免费提供中国环境监测总站发布的PM2.5实时数据查询,更收集分析关于PM2.5有关的一切报
python将天气预报可视化

目录前言结果展示程序代码期望前言在想题材之际,打开私信,有许多萌新&小伙伴询问我之前写的一篇<python爬取天气预报数据,并实现数据可视化>中的bug怎么解决,虽然我在之前,就在评论区提供了自己的解决思路,但可能不够清楚,于是写这篇文章,来解决bug,并对程序进行优化. 结果展示其中: 红线代表当天最高气温,蓝线代表最低气温,最高气温点上的标注为当天的天气情况. 如果使夜晚运行程序,则最高气温和最低气温的点会重合,使由爬取数据产生误差导致的. 程序代码详细请看注释 #
python爬取哈尔滨天气信息

本文实例为大家分享了python爬取哈尔滨天气信息的具体代码,供大家参考,具体内容如下环境: windows7 python3.4(pip install requests:pip install BeautifulSoup4) 代码: (亲测可以正确执行) # coding:utf-8 """ 总结一下,从网页上抓取内容大致分3步: 1.模拟浏览器访问,获取html源代码 2.通过正则匹配,获取指定标签中的内容 3.将获取到的内容写到文件中 ""&qu
Python实现爬取天气数据并可视化分析

目录核心功能设计实现步骤爬取数据风向风级雷达图温湿度相关性分析 24小时内每小时时段降水 24小时累计降雨量今天我们分享一个小案例,获取天气数据,进行可视化分析,带你直观了解天气情况! 核心功能设计总体来说,我们需要先对中国天气网中的天气数据进行爬取,保存为csv文件,并将这些数据进行可视化分析展示. 拆解需求,大致可以整理出我们需要分为以下几步完成: 1.通过爬虫获取中国天气网7.20-7.21的降雨数据,包括城市,风力方向,风级,降水量,相对湿度,空气质量. 2.对获取的天气数
python3爬取各类天气信息

本来是想从网上找找有没有现成的爬取空气质量状况和天气情况的爬虫程序,结果找了一会儿感觉还是自己写一个吧. 主要是爬取北京包括北京周边省会城市的空气质量数据和天气数据. 过程中出现了一个错误:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 250. 原来发现是页面的编码是gbk,把语句改成data=urllib.request.urlopen(url).read().decode("gbk")就可以
python结合API实现即时天气信息

python结合API实现即时天气信息 import urllib.request import urllib.parse import json """ 利用"最美天气"抓取即时天气情况 http://www.zuimeitianqi.com/ """ class ZuiMei(): def __init__(self): self.url = 'http://www.zuimeitianqi.com/zuimei/quer
Python实战之异步获取中国天气信息

目录前言目标请求格式请求限制 requests非异步获取异步获取系统上限编码前言本来是想要更新scrapy的,但是怎么说呢,这玩意不难,看着官方文档,基本上就能做,主要是前面的如果你的爬虫基础不好的话,这个scrapy你也玩不好,而且对于大部分的人来说安装scrapy可能都是个问题,因为有一些历史遗留的问题,毕竟是从python2过来的老框架.当然还有个原因,我要做的东西,用不上scrapy,能够用上scrapy如果只是做爬虫,那必然是分布式爬虫,但是我这里要做的可能只是一个客
使用python无账号无限制获取企查查信息的实例代码

前言文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 通过网上爬虫获取了全国所有企业,然后就需要补充企业信息,首先想到的就是企查查,启信宝等专业网站,最终选择了企查查,尝试了多种方法: 1.selenium爬虫,绕过企查查的登录验证,但账号和IP限制太大,最终放弃 2.通过requests直接请求+cookies,遇到了cookie有效期和限制问题不断的尝试和修改参数,最终发现一种有效方式selenium + wep 只需要IP
Python实战之实现获取动态图表

目录前言开发工具环境搭建百度指数微博指数结果展示前言利用Python实现获取动态图表,废话不多说~ 让我们愉快地开始吧~ 开发工具 Python版本: 3.6.4 相关模块: re模块: requests模块: urllib模块: pandas模块: 以及一些Python自带的模块. 环境搭建安装Python并添加到环境变量,pip安装需要的相关模块即可. 看一下B站2019年「数据可视化」版块的情况,第一个视频超2百万的播放量,4万+的弹幕百度指数获取百度指数,首先需要登
Python运维之获取系统CPU信息的实现方法

使用Python进行运维工作的时候有时候需要获取CPU的信息,这在psutil模块库的帮助下非常容易实现. 常见的CPU信息有以下几种: 1,用户时间以及百分比: 2,系统时间以及百分比: 3,空闲时间以及百分比: 4,CPU的硬件信息: 前3个中的时间可以采用cpu_times方法获取,百分比可以使用cpu_times_pcercent获得. 简单的示范如下: In [9]: importpsutil In [10]:psutil.cpu_times() Out[10]: scputimes(
asp下以Json获取中国天气网天气的代码

百度了一下,找了点别人的方法改进了一下. 获取天气网址:http://www.weather.com.cn/html/weather/101210701.shtml这里是温州的,当然其他城市自己搜索一下,换一下ID. 由于是写入cookies记录当天天气,所有需要在站点下浏览. js代码: 复制代码代码如下: var Url=escape("http://m.weather.com.cn/data/101210701.html"); var COOKIE_info = "C
java如何根据IP获取当前区域天气信息详解

大致思路是客户端发起请求,我们首先根据请求获取到外网IP,然后再根据外网IP获取到用户所在城市,最后根据城市获取到天气信息获取外网IP 万网获取外网IP地址:www.net.cn/static/cust- /** * @Description:获取客户端外网ip 此方法要接入互联网才行,内网不行 **/ public static String getPublicIp() { try { String path = "http://www.net.cn/static/customercare/
python如何利用traceback获取详细的异常信息

除了使用 sys.exc_info() 方法获取更多的异常信息之外,还可以使用 traceback 模块,该模块可以用来查看异常的传播轨迹,追踪异常触发的源头. try: 1/0 except Exception,e: print e 输出结果是integer division or modulo by zero,只知道是报了这个错,但是却不知道在哪个文件哪个函数哪一行报的错. 下面使用traceback模块 traceback是python中用来跟踪异常信息的模块,方便把程序中的运行异常打印或
Python数据分析与处理(二)——处理中国地区信息

目录 2.1数据的爬取 2.2检查重复数据 2.3检查缺失值 2.4 检查异常值 2.1数据的爬取代码: import pandas as pd data=pd.read_csv("example_data.csv",header=1) print(data) data1=pd.read_csv("北京地区信息.csv",header=1,encoding='gbk') data2=pd.read_csv("天津地区信息.csv",encodi
Python实战实现爬取天气数据并完成可视化分析详解

1.实现需求: 从网上(随便一个网址,我爬的网址会在评论区告诉大家,dddd)获取某一年的历史天气信息,包括每天最高气温.最低气温.天气状况.风向等,完成以下功能: (1)将获取的数据信息存储到csv格式的文件中,文件命名为”城市名称.csv”,其中每行数据格式为“日期,最高温,最低温,天气,风向”: (2)在数据中增加“平均温度”一列,其中:平均温度=(最高温+最低温)/2,在同一张图中绘制两个城市一年平均气温走势折线图: (3)统计两个城市各类天气的天数,并绘制条形图进行对比,假设适合旅游的
Python爬虫框架Scrapy实战之批量抓取招聘信息

网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便- Scrapy 使用wisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求.整体架构如下图所示: 绿线是数据流向,首先从初始URL 开始,Scheduler 会将其