Python采集天天基金数据掌握最新基金动向

目录
  • 一、分析网站
  • 二、开始代码
  • 三、运行代码,得到数据

案例实现流程

思路分析:

  • 需要什么数据?需要的数据在哪里?

代码实现:

  • 发送请求
  • 获取数据
  • 解析数据
  • 多页爬取
  • 保存数据

知识点:

  • requests发送请求
  • 开发者工具的使用
  • json类型数据解析
  • 正则表达式的使用

开发环境:

  • 版 本:python 3.8
  • 编辑器:pycharm 2021.2

本次目标:

一、分析网站

第一步:打开开发者工具,按F12,或者右键点击检查
第二步:刷新网站,点击搜索工具,在搜索框内输入基金代码,点击搜索

第三步:找到数据所在的真实url

二、开始代码

导入模块:

import requests    
import re
import csv

发送请求:

url = f'http://fund.eastmoney.com/data/rankhandler.aspx?op=ph&dt=kf&ft=all&rs=&gs=0&sc=6yzf&st=desc&sd=2020-12-16&ed=2021-12-16&qdii=&tabSubtype=,,,,,&pi=1&pn=50&dx=1'
headers = {
    'Cookie': 'HAList=a-sz-300059-%u4E1C%u65B9%u8D22%u5BCC; em_hq_fls=js; qgqp_b_id=7b7cfe791fce1724e930884be192c85e; _adsame_fullscreen_16928=1; st_si=59966688853664; st_asi=delete; st_pvi=79368259778985; st_sp=2021-12-07%2014%3A33%3A35; st_inirUrl=https%3A%2F%2Fwww.baidu.com%2Flink; st_sn=3; st_psi=20211216201351423-112200312936-0028256540; ASP.NET_SessionId=miyivgzxegpjaya5waosifrb',
    'Host': 'fund.eastmoney.com',
    'Referer': 'http://fund.eastmoney.com/data/fundranking.html',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36',
}
response = requests.get(url=url, headers=headers)

获取数据:

data = response.text

解析数据 筛选数据:

data_str = re.findall('\[(.*?)\]', data)[0]

转变数据类型:

tuple_data = eval(data_str)
for td in tuple_data:
    # 把td 变成列表
    td_list = td.split(',')

翻页:

分析不同页数url变化规律

for page in range(1, 193):
    print(f'-------------------------正在爬取第{page}页内容-----------------------')
    url = f'http://fund.eastmoney.com/data/rankhandler.aspx?op=ph&dt=kf&ft=all&rs=&gs=0&sc=6yzf&st=desc&sd=2020-12-16&ed=2021-12-16&qdii=&tabSubtype=,,,,,&pi={page}&pn=50&dx=1'

保存数据:

with open('基金.csv', mode='a', encoding='utf-8', newline='') as f:
    csv_write = csv.writer(f)
    csv_write.writerow(td_list)
print(td)

三、运行代码,得到数据

到此这篇关于Python采集天天基金数据掌握最新基金动向的文章就介绍到这了,更多相关Python采集天天基金数据内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 使用python采集Excel表中某一格数据

    安装并导入模块 打开命令行窗口,输入: pip install -i https://mirrors.aliyun.com/pypi/simple/ openpyxl 导入: from openpyxl import load_workbook 打开表格有两种方式: 1.sheet = workbook.active 打开活跃的/唯一的表格 2.sheet = workbook['sheet1'] 打开表格sheet1 选择某一格也有两种方式: 1.cell = sheet['A1'] 获取A1

  • Python爬虫实战演练之采集糗事百科段子数据

    目录 知识点 爬虫基本步骤: 爬虫代码 导入所需模块 获取网页地址 发送请求 数据解析 保存数据 运行代码,得到数据 知识点 1.爬虫基本步骤 2.requests模块 3.parsel模块 4.xpath数据解析方法 5.分页功能 爬虫基本步骤: 1.获取网页地址 (糗事百科的段子的地址) 2.发送请求 3.数据解析 4.保存 本地 爬虫代码 导入所需模块 import re import requests import parsel 获取网页地址 url = 'https://www.qiu

  • Python爬虫采集微博视频数据

    目录 前言 知识点 开发环境 爬虫原理  案例实现 前言 随时随地发现新鲜事!微博带你欣赏世界上每一个精彩瞬间,了解每一个幕后故事.分享你想表达的,让全世界都能听到你的心声!今天我们通过python去采集微博当中好看的视频! 没错,今天的目标是微博数据采集,爬的是那些好看的小姐姐视频 知识点 requests pprint 开发环境 版 本:python 3.8 -编辑器:pycharm 2021.2 爬虫原理 作用:批量获取互联网数据(文本, 图片, 音频, 视频) 本质:一次次的请求与响应

  • Python使用psutil库对系统数据进行采集监控的方法

    大家好,我是辰哥- 今天给大家介绍一个可以获取当前系统信息的库--psutil 利用psutil库可以获取系统的一些信息,如cpu,内存等使用率,从而可以查看当前系统的使用情况,实时采集这些信息可以达到实时监控系统的目的. psutil库 psutil的安装很简单 pip install psutil psutil库可以获取哪些系统信息? psutil有哪些作用 1.内存使用情况 2.磁盘使用情况 3.cpu使用率 4.网络接口发送接收流量 5.获取当前网速 6.系统当前进程 ... 下面通过具

  • Python爬虫实战演练之采集拉钩网招聘信息数据

    目录 本文要点: 环境介绍 本次目标 爬虫块使用 内置模块: 第三方模块: 代码实现步骤: (爬虫代码基本步骤) 开始代码 导入模块 发送请求 解析数据 加翻页 保存数据 运行代码,得到数据 本文要点: 爬虫的基本流程 requests模块的使用 保存csv 可视化分析展示 环境介绍 python 3.8 pycharm 2021专业版 激活码 Jupyter Notebook pycharm 是编辑器 >> 用来写代码的 (更方便写代码, 写代码更加舒适) python 是解释器 >&

  • 基于Python采集爬取微信公众号历史数据

    鲲之鹏的技术人员将在本文介绍一种通过模拟操作微信App的方式采集指定公众号的所有历史数据的方法. 通过我们抓包分析发现,微信公众号的历史数据是通过HTTP协议加载的,对应的API接口如下图所示,其中有四个关键参数(__biz.appmsg_token.pass_ticket以及Cookie). 为了能够拿到这四个参数,我们需要模拟操作App,让其产生这些参数,然后我们再抓包获取.对于模拟App操作,前面我们曾介绍过通过Python模拟安卓App的方法(详见http://www.site-digg

  • Python采集天天基金数据掌握最新基金动向

    目录 一.分析网站 二.开始代码 三.运行代码,得到数据 案例实现流程 思路分析: 需要什么数据?需要的数据在哪里? 代码实现: 发送请求 获取数据 解析数据 多页爬取 保存数据 知识点: requests发送请求 开发者工具的使用 json类型数据解析 正则表达式的使用 开发环境: 版 本:python 3.8 编辑器:pycharm 2021.2 本次目标: 一.分析网站 第一步:打开开发者工具,按F12,或者右键点击检查第二步:刷新网站,点击搜索工具,在搜索框内输入基金代码,点击搜索 第三

  • Python采集股票数据并制作可视化柱状图

    目录 前言 模块使用 开发环境 代码实现步骤 代码 数据可视化 前言 嗨喽!大家好呀,这里是魔王~ 雪球,聪明的投资者都在这里 - 4300万投资者都在用的投资社区, 沪深港美全球市场实时行情,股票基金债券免费资讯,与投资高手实战交流. 模块使用 requests >>> pip install requests (数据请求 第三方模块) re # 正则表达式 去匹配提取数据 json pandas pyecharts 开发环境 Python 3.8 解释器 Pycharm 2021.2

  • python采集天气数据并做数据可视化

    前言 最近天气好像有了点小脾气,总是在万分晴朗得时候耍点小性子~ 阴会天,下上一会的雨~提醒我们时刻记得带伞哦,不然会被雨淋或者被太阳公公晒到 那么今天我就来分享一下采集天气数据 并做数据可视化的代码吧~ 知识点: 动态数据抓包 requests发送请求 结构化+非结构化数据解析 开发环境: python 3.8 运行代码 pycharm 2021.2 辅助敲代码 requests 如果安装python第三方模块: win + R 输入 cmd 点击确定, 输入安装命令 pip install

  • Python实现批量采集商品数据的示例详解

    目录 本次目的 知识点 开发环境 代码 本次目的 python批量采集某商品数据 知识点 requests 发送请求 re 解析网页数据 json 类型数据提取 csv 表格数据保存 开发环境 python 3.8 pycharm requests 代码 导入模块 import json import random import time import csv import requests import re import pymysql 核心代码 # 连接数据库 def save_sql(t

  • Python爬虫采集Tripadvisor数据案例实现

    目录 前言 第三方库 开发环境 开始代码 请求数据 2. 获取数据(网页源代码) 3. 解析数据(提取我们想要的数据内容 详情页链接) 4. 发送请求(访问所有的详情页链接) 获取数据 5. 解析数据 6.保存数据 7.得到数据 前言 Tripadvisor是全球领先的旅游网站,主要提供来自全球旅行者的点评和建议,全面覆盖全球的酒店.景点.餐厅.航空公司 ,以及旅行规划和酒店.景点.餐厅预订功能.Tripadvisor及旗下网站在全球49个市场设有分站,月均独立访问量达4.15亿. 第三方库 r

  • Python的净值数据接口调用示例分享

    代码描述:基于Python的净值数据接口调用代码实例 关联数据:净值数据 接口地址:https://www.juhe.cn/docs/api/id/25 #!/usr/bin/python # -*- coding: utf-8 -*- import json, urllib from urllib import urlencode #---------------------------------- # 净值数据调用示例代码 - 聚合数据 # 在线接口文档:http://www.juhe.c

  • 利用python如何处理nc数据详解

    前言 这两天帮一个朋友处理了些 nc 数据,本以为很简单的事情,没想到里面涉及到了很多的细节和坑,无论是"知难行易"还是"知易行难"都不能充分的说明问题,还是"知行合一"来的更靠谱些,既要知道理论又要知道如何实现,于是经过不太充分的研究后总结成此文,以记录如何使用 python 处理 nc 数据. 一.nc 数据介绍 nc 全称 netCDF(The Network Common Data Form),可以用来存储一系列的数组,就是这么简单(参考

  • python批量导入数据进Elasticsearch的实例

    ES在之前的博客已有介绍,提供很多接口,本文介绍如何使用python批量导入.ES官网上有较多说明文档,仔细研究并结合搜索引擎应该不难使用. 先给代码 #coding=utf-8 from datetime import datetime from elasticsearch import Elasticsearch from elasticsearch import helpers es = Elasticsearch() actions = [] f=open('index.txt') i=

  • 浅谈Python采集网页时正则表达式匹配换行符的问题

    如下所示: p1 = r'(?<=<div class="ds_cr">)(.*?)(?=<div id="pageurl">)' #这样采集html时出错,采集不到数据,正则中 . 是不能匹配换行符,改成如下: p1 = r'(?<=<div class="ds_cr">)([\s\S]*?)(?=<div id="pageurl">)' # 这是我们写的正则表达式

  • python 消费 kafka 数据教程

    1.安装python模块 pip install --user kafka-python==1.4.3 如果报错压缩相关的错尝试安装下面的依赖 yum install snappy-devel yum install lz4-devel pip install python-snappy pip install lz4 2.生产者 #!/usr/bin/env python # coding : utf-8 from kafka import KafkaProducer import json

随机推荐