利用Python爬虫爬取金融期货数据的案例分析

目录
  • 任务简介
  • 解决步骤
  • 代码实现
  • 总结

大家好 我是政胤今天教大家爬取金融期货数据

任务简介

首先,客户原需求是获取https://hq.smm.cn/copper网站上的价格数据(注:获取的是网站上的公开数据),如下图所示:

如果以该网站为目标,则需要解决的问题是“登录”用户,再将价格解析为表格进行输出即可。但是,实际上客户核心目标是获取“沪铜CU2206”的历史价格,虽然该网站也有提供数据,但是需要“会员”才可以访问,而会员需要氪金......

数据的价值!!!

鉴于,客户需求仅仅是“沪铜CU2206”一项期货的历史价格,氪金会员性价比不高,因此,实际的任务目标变为如何获取的历史价格,目标变为全网有公开提供数据的网址。而最终解决该问题,是求助于万能的百度^_^。找到了合适的网站,且获取数据的难度也几乎降到了最低难度。

解决步骤

1.百度搜索资源:这个步骤是整个任务完整的最难点(实际不难),但这里卖个关子,全文不公布最终找到的网站,大家试试看能否搜索到,以及花费多少时间^_^。

2.解析网站的请求,最终找到的网站经解析后,发现获取数据是通过get的方式提交参数。而请求的参数如下:/price?starttime=1638545822&endtime=1654357022&classid=48,一看就知是开始时间、结束时间的时间戳,以及商品id。再解析headers,居然连cookie都不需要,说明没有反爬!没有反爬!没有反爬!不得不说运气爆棚!

3.解析响应数据:由于响应数据是规整的json格式数据,使用pandas的read_json直接能够获取dataframe格式的数据,该步骤也并无难度。

代码实现

鉴于网站没有反爬,且参数简单,实际上的任务主要是规划一下如何设计增量更新数据信息的流程,具体代码如下:

# @author: zheng yin
# @contact: 1278420339@qq.com

"""
1. 这是爬取沪铜的程序
2. 该网站沪铜当月的数据实际请求地址是:'(实际网址)/price?starttime={starttime}&endtime={endtime}&classid={classid}'
2.1. starttime为起始日期的时间戳
2.2. endtime为结束日期的时间戳
2.3. classid为查询商品的id
3. 该网址可以直接发起请求获取数据
我是政胤 期待你的关注
"""

import time
from datetime import datetime

import pathlib as pl
import requests
import pandas as pd

class Spider:
    """
    爬取网站数据的爬虫对象
    """

    def __init__(self, starttime: str = None, endtime: str = None, classid: int = 48):
        """
        初始化对象属性
        :param starttime: 数据的起始日期,文本日期格式,示例 2022-1-1
        :param endtime: 数据的结束日期,文本日期格式,示例 2022-1-1
        :param classid: 商品id,默认48
        """
        self.classid = classid  # 商品id
        self.data = pd.DataFrame()  # 初始化空dataframe
        self.data_file = pl.Path('./data/hutong.xlsx')  # 爬取的数据存储文件
        # 列名字典
        self.cols_dict = {
            'createtime': '日期',
            'classid': '商品',
            'start': '开盘',
            'end': '收盘',
            'min': '最低',
            'max': '最高',
            'move': '涨跌',
            'move_percent': '涨跌百分比'
        }
        # 商品id字典
        self.classid_dict = {
            48: 'CU2206'
        }
        # 获取爬取的开始时间与结束时间
        self.starttime, self.endtime = self.make_starttime_endtime(starttime=starttime, endtime=endtime)
        # 初始化需要爬取的url
        self.url = '(实际地址)/price?starttime={starttime}&endtime={endtime}&classid={classid}'
        # 初始化headers
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Accept-Encoding': 'gzip, deflate, br',
            'Accept-Language': 'zh-CN,zh;q=0.9',
        }

    def make_starttime_endtime(self, starttime: str, endtime: str):
        """
        制作起始日期,逻辑如下;
        1.如果有传入日期,则根据传入的日期,定义起始日期与结束日期
        2.如果未传入参数,则根据读取到的历史数据文件中的最大日期作为起始日期、以当前日期为结束日期
        3.如果未读取到历史数据文件,或文件中的最大日期为空,则以2021-1-1作为起始日期,以当前日期作为结束日期
        :param starttime: 数据的起始日期,文本日期格式,示例 2022-1-1
        :param endtime: 数据的结束日期,文本日期格式,示例 2022-1-1
        :return:
        """
        self.read_data()  # 读取历史爬取数据
        now = datetime.now()  # 获取当前时间的时间戳整数部分
        if endtime:  # 如果非空
            year, month, day = endtime.split('-')
            endtime = int(now.replace(year=int(year), month=int(month), day=int(day)).timestamp())
        else:
            endtime = int(now.timestamp())
        if starttime:
            year, month, day = starttime.split('-')
            starttime = int(now.replace(year=int(year), month=int(month), day=int(day)).timestamp())
        else:
            starttime = self.data['日期'].max()
            if pd.isnull(starttime):  # 如果开始日期是空值
                starttime = int(now.replace(year=2021, month=1, day=1).timestamp())
            else:
                starttime = int(
                    now.replace(year=starttime.year, month=starttime.month, day=starttime.day).timestamp())
        return starttime, endtime

    def read_data(self):
        """
        读取历史数据
        :return:
        """
        if self.data_file.is_file():  # 如果历史数据文件存在
            self.data = pd.read_excel(self.data_file)
            self.data['日期'] = self.data['日期'].map(lambda x: x.date())
        else:  # 如果历史数据文件不存在,那么初始化一个只有列名的dataframe,
            self.data = pd.DataFrame(self.cols_dict.values()).set_index(0).T

    def crawl_data(self):
        """
        爬取数据
        :return:
        """
        retry_times = 0
        while retry_times < 10:  # 重试10次
            try:
                res = requests.get(
                    self.url.format(starttime=self.starttime, endtime=self.endtime, classid=self.classid),
                    headers=self.headers, timeout=30)
                if res.status_code == 200:  # 如果返回状态至为200,进行后续数据加工
                    data = pd.read_json(res.text)  # json格式转换为dataframe
                    data['createtime'] = data['createtime'].map(lambda x: datetime.fromtimestamp(x).date())  # 时间戳日期转换为日期
                    data.rename(columns=self.cols_dict, inplace=True)  # 重命名列
                    data = data[self.cols_dict.values()]  # 截取需要的列
                    data['商品'] = self.classid_dict.get(self.classid, '未知商品,请维护classid_dict字典')  # 转换商品名
                    data.sort_values(by=['商品', '日期'], ascending=True, inplace=True)  # 按日期升序排序
                    return data
                else:
                    retry_times += 1
                    print(f'返回状态码是 {res.status_code},等待5秒后重新发起请求')
                    time.sleep(5)
            except Exception as e:
                retry_times += 1
                print(f'请求发生错误,等待5秒后重新发起请求, 错误信息: {e}')
                time.sleep(5)
        print('发起10次请求均未能获得数据')
        return pd.DataFrame()

    def concat_and_write_data(self, data: pd.DataFrame):
        """
        合并数据,并将数据写入文件
        :param data: 传入需要合并的数据
        :return:
        """
        self.data = pd.concat([self.data, data])  # 合并数据
        self.data = self.data.drop_duplicates(['日期', '商品'], keep='last')  # 数据根据商品名称与日期进行去重,每次保留最新的记录
        if not self.data_file.parent.is_dir():  # 检查数据文件的目录是否存在,如不存在则创建新目录
            self.data_file.parent.mkdir()
        self.data.to_excel(self.data_file, index=False, encoding='utf-8')  # 输出数据为excel格式

    def run(self):
        """
        运行程序
        :return:
        """
        data = spider.crawl_data()  # 运行爬取
        if len(data) > 0:  # 如果爬取到的数据不为空
            self.concat_and_write_data(data)
            start = str(datetime.fromtimestamp(self.starttime))[:10]
            end = str(datetime.fromtimestamp(self.endtime))[:10]
            print(f'{start}至{end}数据爬取任务完成')

    def pivot_data(self):
        """
        将数据转换为透视表式的格式
        :return:
        """
        data = self.data.copy()
        data['年月'] = data['日期'].map(lambda x: f'{str(x)[:7]}')
        data['日'] = data['日期'].map(lambda x: x.day)
        data = data.pivot_table(values='收盘', index='日', columns='年月', aggfunc='sum')
        data_mean = data.mean().to_frame().T
        data_mean.index = ['平均值']
        data = pd.concat([data, data_mean])
        data.to_excel(self.data_file.parent.parent / 'data.xlsx', encoding='utf-8')
if __name__ == '__main__':
    spider = Spider()
    spider.run()
    spider.pivot_data()
    print(spider.data)

总结

从技术角度来看,经过一步步解析,任务是简单的,入门requests爬虫以及入门pandas数据分析就可以完成(唯一的难度在找到合适的目标)。但是换个角度,从经济价值来看,又是很有价值的,即节约了某网站高昂的年费(注:并不是说年费不值得,只是局限在需求仅仅是CU2206一项数据上时,性价比太低),同时又避免了人工操作的繁琐,以及可能产生的错误。用很小的学习成本就能解决大大的问题

到此这篇关于利用Python爬虫爬取金融期货数据的文章就介绍到这了,更多相关Python爬虫金融期货数据内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

    目录 知识点 第三方库 开发环境: 爬虫程序 导入模块 发送请求 获取数据(网页源代码) 解析网页(re正则表达式,css选择器,xpath,bs4/六年没更新了,json) 向详情页网站发送请求(get,post) 解析网页 保存数据 数据可视化 导入模块 导入数据 旅游胜地Top10及对应费用 出游方式分析 出游时间分析 出游玩法分析 知识点 requests 发送网络请求 parsel 解析数据 csv 保存数据 第三方库 requests >>> pip install requ

  • Python爬虫爬取疫情数据并可视化展示

    目录 知识点 开发环境 爬虫完整代码 导入模块 分析网站 发送请求 获取数据 解析数据 保存数据 数据可视化 导入模块 读取数据 死亡率与治愈率 各地区确诊人数与死亡人数情况 知识点 爬虫基本流程 json requests 爬虫当中 发送网络请求 pandas 表格处理 / 保存数据 pyecharts 可视化 开发环境 python 3.8 比较稳定版本 解释器发行版 anaconda jupyter notebook 里面写数据分析代码 专业性 pycharm 专业代码编辑器 按照年份与月

  • 如何用六步教会你使用python爬虫爬取数据

    目录 前言: python爬出六部曲 第一步:安装requests库和BeautifulSoup库: 第二步:获取爬虫所需的header和cookie: 第三步:获取网页: 第四步:解析网页: 第五步:分析得到的信息,简化地址: 第六步:爬取内容,清洗数据 爬取微博热搜的代码实例以及结果展示: 总结 前言: 用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂.以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了. python爬出六部曲 第一步:安装re

  • python爬虫爬取股票的k线图

    目录 前言 数据来源分析 数据抓取 总结 前言 之前已经讲述了一些关于 python 获取基金的一些信息,最近又有了一些新发现,和大家分享一下,这个是非常重要的内容,非常重要的内容.这个数据也是非常的敏感,在一些搞量化交易的平台上,这些数据都是要收费的,而且数据的质量也不能保障.这个内容就是如何获取股票交易的 k 线数据. 数据来源分析 我是非常欣赏东方某富的,因为同为券商,和别的公司确实不大一样,有这互联网的基因,可以这样说,是因为它的出现改变了一些行业的规则.话不多说,这里以海尔智家为例,抓

  • 利用Python爬虫爬取金融期货数据的案例分析

    目录 任务简介 解决步骤 代码实现 总结 大家好 我是政胤今天教大家爬取金融期货数据 任务简介 首先,客户原需求是获取https://hq.smm.cn/copper网站上的价格数据(注:获取的是网站上的公开数据),如下图所示: 如果以该网站为目标,则需要解决的问题是“登录”用户,再将价格解析为表格进行输出即可.但是,实际上客户核心目标是获取“沪铜CU2206”的历史价格,虽然该网站也有提供数据,但是需要“会员”才可以访问,而会员需要氪金...... 数据的价值!!! 鉴于,客户需求仅仅是“沪铜

  • python爬虫爬取网页数据并解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. 2.网络爬虫的功能 网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些金融信息,并进行投资分析等. 有时,我们比较喜欢的新闻网站可能有几个,每次都要分别

  • Python实现爬取天气数据并可视化分析

    目录 核心功能设计 实现步骤 爬取数据 风向风级雷达图 温湿度相关性分析 24小时内每小时时段降水 24小时累计降雨量 今天我们分享一个小案例,获取天气数据,进行可视化分析,带你直观了解天气情况! 核心功能设计 总体来说,我们需要先对中国天气网中的天气数据进行爬取,保存为csv文件,并将这些数据进行可视化分析展示. 拆解需求,大致可以整理出我们需要分为以下几步完成: 1.通过爬虫获取中国天气网7.20-7.21的降雨数据,包括城市,风力方向,风级,降水量,相对湿度,空气质量. 2.对获取的天气数

  • python爬虫爬取网页表格数据

    用python爬取网页表格数据,供大家参考,具体内容如下 from bs4 import BeautifulSoup import requests import csv import bs4 #检查url地址 def check_link(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: print('无法链接服务器!!!')

  • Python爬虫爬取、解析数据操作示例

    本文实例讲述了Python爬虫爬取.解析数据操作.分享给大家供大家参考,具体如下: 爬虫 当当网 http://search.dangdang.com/?key=python&act=input&page_index=1 获取书籍相关信息 面向对象思想 利用不同解析方式和存储方式 引用相关库 import requests import re import csv import pymysql from bs4 import BeautifulSoup from lxml import e

  • Python实现爬虫爬取NBA数据功能示例

    本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据 改变url_header和url_tail即可爬取特定的其他数据. 源代码如下: #coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import time import urll

  • Python爬虫爬取电影票房数据及图表展示操作示例

    本文实例讲述了Python爬虫爬取电影票房数据及图表展示操作.分享给大家供大家参考,具体如下: 爬虫电影历史票房排行榜 http://www.cbooo.cn/BoxOffice/getInland?pIndex=1&t=0 Python爬取历史电影票房纪录 解析Json数据 横向条形图展示 面向对象思想 导入相关库 import requests import re from matplotlib import pyplot as plt from matplotlib import font

  • Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤

    思路:使用Python爬虫对腾讯疫情网站世界疫情数据进行爬取,封装成一个函数返回一个    字典数据格式的对象,写另一个方法调用该函数接收返回值,和数据库取得连接后把    数据存储到mysql数据库. 一.mysql数据库建表 CREATE TABLE world( id INT(11) NOT NULL AUTO_INCREMENT, dt DATETIME NOT NULL COMMENT '日期', c_name VARCHAR(35) DEFAULT NULL COMMENT '国家'

随机推荐