python爬虫之基金信息存储

目录
  • 1 前言
  • 2 信息存储
    • 2.1 基金基本信息存储
    • 2.2 基金变动信息获取
  • 3 需要改进的地方
    • 3.1 基金类型
    • 3.2 基金的更新顺序
  • 4 总结

1 前言

前面已经讲了很多次要进行数据存储,终于在上一篇中完成了数据库的设计,在这一篇就开始数据的存储操作,在数据存储的这个部分,会将之前抓取到的基金列表,基金基本信息和基金变动信息以及ETF信息进行存储。

2 信息存储

2.1 基金基本信息存储

在这里获取基金信息包括两个部分,一部分是场外基金另外一部分是场外基金信息。之在前的文章中,我们已经获完成了场外基金和ETF基金信息的代码,因此在这里我们仅仅需要存储数据库即可,那么有个问题,基金的信息是随时发生变更的或者更新的。在保存时需要先判断基金代码是否已经存在,如果存在则更新,如果不存在则新增,但是这样效率有点低,这时候就用到之前的文章内容,使用这样 on duplicate key update 的语句就可以一条sql搞定了。

举例如下所示:

INSERT INTO `tb_fund_list`(`code`, `name`, `fund_type`) VALUES ('000363','国泰聚信价值优势混合C','混合型-灵活')
on duplicate key update `code` = '000363', `name` = '国泰聚信价值优势混合C' ,`fund_type` = '混合型-灵活';

如果存在000363基金的话,我们就进行更新操作,如果不存在那么久插入数据。

具体实现的代码如下图所示:

2.2 基金变动信息获取

基金的变动信息不论是场内基金还是场外基金都是一样的获取方式,在这里就可以使用通用的逻辑进行处理了,就是之前抓取基金变动信息和基金价格信息的方式。

3 需要改进的地方

3.1 基金类型

现在基金基本信息中的基金类型还是中文,这样的中文存储起来不符合常用的编码规范,之前没有处理是因为还不知道有多少种基金的类型,现在已经获取到了所有的基金,这个时候我们需要查询一下所有的基金类型,然后建立枚举来表述不同的基金类型。

# 获取所有的基金类型信息
select distinct fund_type from tb_fund_list;

根据查询出来的基金类型,最终定义的基金类型如下图所示:

fund_type_dic = {
    "QDII": "1",
    "商品(不含QDII)": "2",
    "股票型": "3",
    "指数型-股票": "4",
    "混合型-偏债": "51",
    "混合型-偏股": "52",
    "混合型-平衡": "53",
    "混合型-灵活": "61",
    "债券型-中短债": "62",
    "债券型-可转债": "63",
    "债券型-混合债": "64",
    "债券型-长债": "65"
}

根据经验来说,债券型的基金相对比较多,如果对债券基金感兴趣的

可以时常更新数据,在后续的操作中以非债券型基金为主进行分析,数据总量相对较小,批量更新的时间也相对较短。

3.2 基金的更新顺序

在之前的基金获取过程中,总体来讲获取的顺序是混乱的,在最终的数据结果存储时,需要将获取的信息基金拼接和组装。最终的更新数据顺序为:

  • 1 更新场外基金列表(新增或者更新)
  • 2 更新ETF信息列表(新增或者更新)
  • 3 查询基金的基本信息进行更新操作
  • 4 查询基金的阶段变动信息进行更新

4 总结

获取基金的信息已经完毕,已经把基金信息保存成功,在下一章中将介绍如何建立线性模型去评估基金的分数,为投资基金做出定量分析。

到此这篇关于python爬虫之基金信息存储的文章就介绍到这了,更多相关python信息存储内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中

    爬取TOP500的音乐信息,包括排名情况.歌曲名.歌曲时间. 网页版酷狗不能手动翻页进行下一步的浏览,仔细观察第一页的URL: http://www.kugou.com/yy/rank/home/1-8888.html 这里尝试将1改为2,再进行浏览,恰好是第二页的信息,再改为3,恰好是第三页的信息,多次尝试发现不同的数字即为不同的页面.因此只需更改home/后面的数字即可.由于每页显示的为22首歌曲,所以总共需要23个URL. import requests from bs4 import B

  • Python爬虫获取基金变动信息

    目录 1 前言 2 抓取变动信息 2.1 基金的变动信息获取 2.2 基金阶段信息的抓取 3 最终结果展现 1 前言 前面文章Python爬虫获取基金列表.Python爬虫获取基金基本信息我们已经介绍了怎么获取基金列表以及怎么获取基金基本信息,本文我们继续前面的内容,获取基金的变动信息.这次获取信息的方式将组合使用页面数据解析和api接口调用的方式进行. 2 抓取变动信息 我们通过观察基金基本信息页面,我们可以发现有关基金变动信息的页面可以包含以下4个部分: 接下来说一下我们抓取数据的思路,在第

  • Python爬虫获取基金净值信息详情

    目录 1 前言 2 获取基金净值 3 数据库结构设计 4 如何进行数据存储 5 总结 1 前言 前面的文章中我们已经获取到了基金的阶段变动信息和ETF信息的获取,那么在本章中,我们将继续前面的内容,获取基金的价格信息,并且把之前的抓取到的数据存入到数据库中,方便我们进行后续的分析操作. 2 获取基金净值 获取基金的净值信息,也就是基金的最近一个交易日的价格,如下图所示,展示了单位净值更新的日期,价格以及涨跌幅度信息.顺便我们也获取一下基金的规模信息,后续选择到同类基金不知道怎么去选择的时候,可以

  • Python爬虫获取基金基本信息

    目录 1 前言 2 如何抓取基本信息 3 xpath 获取数据 4 bs4 获取数据 5 最终结果展现 1 前言 上篇文章Python爬虫获取基金列表我们已经讲述了如何从基金网站上获取基金的列表信息.这一骗我们延续上一篇,继续分享如何抓取基金的基本信息做展示.展示的内容包括基金的基本信息,诸如基金公司,基金经理,创建时间以及追踪标.持仓明细等信息. 2 如何抓取基本信息 # 在这里我就直接贴地址了,这个地址的获取是从基金列表跳转,然后点基金概况就可以获取到了. http://fundf10.ea

  • Python实现简易信息分类存储软件

    时间紧任务重,女神提出的要求有模棱两可,只能自己考虑各种情况,除了用python还有谁能这么短的时间搞出来. 程序界面,增删改查不能少,后悔药也需要给女神准备上,由于最后需要打包给女神用,所以选择了python的自带库,tkinter编写界面,我觉得也不是那么丑,数据存储用sqlite3数据库,可以导出成csv文件,完全用python自带库解决,这样打包起来兼容性会好一点. 查询界面,可以根据每个表的各个项目分类查询,如果不输入查询关键字,则当前类别全部输出. 汇总信息展示,这里也是程序初始界面

  • Python3爬虫学习之MySQL数据库存储爬取的信息详解

    本文实例讲述了Python3爬虫学习之MySQL数据库存储爬取的信息.分享给大家供大家参考,具体如下: 数据库存储爬取的信息(MySQL) 爬取到的数据为了更好地进行分析利用,而之前将爬取得数据存放在txt文件中后期处理起来会比较麻烦,很不方便,如果数据量比较大的情况下,查找更加麻烦,所以我们通常会把爬取的数据存储到数据库中便于后期分析利用. 这里,数据库选择MySQL,采用pymysql 这个第三方库来处理python和mysql数据库的存取,python连接mysql数据库的配置信息 db_

  • python爬虫之基金信息存储

    目录 1 前言 2 信息存储 2.1 基金基本信息存储 2.2 基金变动信息获取 3 需要改进的地方 3.1 基金类型 3.2 基金的更新顺序 4 总结 1 前言 前面已经讲了很多次要进行数据存储,终于在上一篇中完成了数据库的设计,在这一篇就开始数据的存储操作,在数据存储的这个部分,会将之前抓取到的基金列表,基金基本信息和基金变动信息以及ETF信息进行存储. 2 信息存储 2.1 基金基本信息存储 在这里获取基金信息包括两个部分,一部分是场外基金另外一部分是场外基金信息.之在前的文章中,我们已经

  • Python爬虫获取基金列表

    目录 1 前言 2 哪里去获取数据呢 3 怎么抓取数据呢 1 前言 python爬虫用来收集数据是最直接和常用的方法,可以使用python爬虫程序获得大量的数据,从而变得非常的简单和快速:绝大多数网站使用了模板开发,使用的模板可以快速生成大量相同布局不同内容的页面,这时只需要为一个页面开发爬虫程序,因为爬虫程序也可以对同一模板生成的不同内容进行爬取内容 2 哪里去获取数据呢 这里给大家准备好了,打开这个连接,就能找看到对应的基金信息: http://fund.eastmoney.com/jzzz

  • python爬虫之场内ETF基金获取

    目录 1 前言 2 ETF列表和简称 3 ETF 信息获取 3.1 ETF列表信获取 3.2 获取基金的简称 4 最终结果展示 1 前言 之前已经介绍了基金的变动信息,但是这些基金都是属于场外的,今天我们要介绍的是一个带门槛的投资产品-ETF.只有开立证券账户的玩家才能入局,ETF 是一种场内交易型基金,可以在盘中进行交易,交易性比场外基金强一点,那么闲言少叙,马上开始介绍正题. 2 ETF列表和简称 ETF基金变动情况和基本情况的获取方式和场外基金是一样的,怎么获取比较全面的ETF基金列表呢?

  • Python爬虫回测股票的实例讲解

    股票和基金一直是热门的话题,很多周围的人都选择不同种类的理财方式.就股票而言,肯定是短时间内收益最大化,这里我们需要用python爬虫的方法,来帮助我们获取一些股票的数据,这样才能更好的买到相应的股票.下面我们就python爬虫获取股票数据的方法带来详细的讲解. 1.生成上证与深证所有股票的代码: #上证代码 shanghaicode = [] for i in range(600000, 604000, 1): shanghaicode.append(str(i)) #深证代码 shenzhe

  • python爬虫爬取股票的k线图

    目录 前言 数据来源分析 数据抓取 总结 前言 之前已经讲述了一些关于 python 获取基金的一些信息,最近又有了一些新发现,和大家分享一下,这个是非常重要的内容,非常重要的内容.这个数据也是非常的敏感,在一些搞量化交易的平台上,这些数据都是要收费的,而且数据的质量也不能保障.这个内容就是如何获取股票交易的 k 线数据. 数据来源分析 我是非常欣赏东方某富的,因为同为券商,和别的公司确实不大一样,有这互联网的基因,可以这样说,是因为它的出现改变了一些行业的规则.话不多说,这里以海尔智家为例,抓

  • python爬虫之BeautifulSoup 使用select方法详解

    本文介绍了python爬虫之BeautifulSoup 使用select方法详解 ,分享给大家.具体如下: <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></

  • Python爬虫正则表达式常用符号和方法

    正则表达式并不是Python的一部分.正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大.得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同:但不用担心,不被支持的语法通常是不常用的部分. 1.常用符号 . :匹配任意字符,换行符 \n 除外 :匹配前一个字符0次或无限次 ? :匹配前一个字符0次或1次 .* :贪心算法,尽可能的匹配多的字符 .*? :非

  • python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用requests.get()获取的内容是不含推送消息的,这里使用selenium+PhantomJS处理 代码 #! /usr/bin/env python3 from selenium import webdriver from datetime import datetime import bs4, requ

随机推荐