python数据分析之将爬取的数据保存为csv格式

2025-04-03 06:07:08

csv文件

一种用逗号分割来实现存储表格数据的文本文件。

python的csv模块

python遍历代码：

arr = [12, 5, 33, 4, 1]
#遍历输出1
for i in range(0, len(arr)):
    item = arr[i]
    print(item)

#遍历输出2
for item in arr:
    print(item)

#遍历输出3
string_arr = ["hi", "hello", "你好", "aloha"]
for item in string_arr:
    print("本次循环 item 变量的值", item)

从csv文件读取内容

用DictReader对象的创建方法以及通过filenames属性获取csv表格的表头。

import csv
#打开csv
fo = open("info.csv")
#打开csv文件的文件对象作为参数来创建dictreader类的对象，存在reader变量中
reader = csv.DictReader(fo)
#调用reader对象的filednames属性，获取csv文件表格的开头
headers = reader.fieldnames
#关闭文件
fo.close()
#打印
print(headers)

获取表格实际内容。

fo = open("info.csv")
reader = csv.DictReader(fo)
#创建列表，存储读到的行
row_list = []
#遍历
for row in reader:
    row_list.append(row)
fo.close()
#打印
print(row_list[0])
#遍历row_list
for d in row_list:
    #d是字典，直接打印key为年龄值即可
    print(d["年龄"])
#打印

写入csv文件

python提供了DictWriter方法，可以讲表格数据以字典的形式存储到csv文件中。

import csv
#打开一个文件，假设是info.csv，写入所以是w
#newline=''，写入时需要指定
fo = open("info2.csv", "w", newline='')
#将表头存储到一个列表里
header = ["姓名", "年龄", "部门"]
#创建一个DictWriter对象，第二个参数就是上面创建的表头
writer = csv.DictWriter(fo, header)
writer.writeheader()
#写入一行记录，以字典的形式，key需要与表头对应
writer.writerow({"姓名": "小明", "年龄":"28", "部门": "行政部"})
#关闭文件
fo.close()

运行后，相应的文件夹下会出现一个对应的csv文件。

也可以使用writer.writerows(row_list)来写入多个。

运用实例

数据准备

1、打开网页，读取内容，并创建相应的BeautifulSoup对象

2、找到包含新闻的div元素列表

3、从2中抽取标题

4、从2中抽取时间

from bs4 import BeautifulSoup
def create_doc_from_filename(filename):
    fo = open(filename, "r", encoding='utf-8')
    html_content = fo.read()
    fo.close
    doc = BeautifulSoup(html_content)
    return doc

（记得要pip install bs4）

#输入参数是BeautifulSoup对象，返回包含新闻的div元素列表
def find_index_labels(doc):
    index_labels = doc.find_all("div", class_ = "indexs")
    return index_labels

#实现新闻标题的抽取函数
def get_title(label_object):
    #从刚才的参数传入的标签对象中过滤出所有的target = _blank的a标签
    a_labels = label_object.find_all("a", target = "_blank")
    #取得第一个标签对象
    my_label = a_labels[0]
    #将标签的文字内容作为返回值返回
    return my_label.get_text()

#实现获取新闻发布时间的函数
def get_pub_time(label_object):
    #找到class = comment-link的span标签
    spans = label_object.find_all("span", class_ = "comment-link")
    #取第一个
    span = spans[0]
    #返回标题属性
    return span["title"]

#获取新闻标题与列表
#调用create_doc_from_filename函数
doc = create_doc_from_filename("jiandan.html")
#传入BeautifulSoup对象，将返回的div列表存储在index_labels中
index_labels = find_index_labels(doc)
for label_object in index_labels:
    title = get_title(label_object)
    pub_time = get_pub_time(label_object)
    print("标题", title)
    print("发布时间", pub_time)

将数据存为字典的形式

#获取新闻标题与列表
#调用create_doc_from_filename函数
doc = create_doc_from_filename("jiandan.html")
#传入BeautifulSoup对象，将返回的div列表存储在index_labels中
index_labels = find_index_labels(doc)
news_dict_list = []
for label_object in index_labels:
    title = get_title(label_object)
    pub_time = get_pub_time(label_object)
    news = {"标题": title, "发布时间": pub_time}
    news_dict_list.append(news)
print(news_dict_list)

存储到csv文件

#创建csv
fo = open("news.csv", "w", newline='', encoding='utf-8')
#表头
header = ["标题", "发布时间"]
writer = csv.DictWriter(fo, header)
#写入表头
writer.writeheader()
#将上一步的字典写入csv文件中
writer.writerows(news_dict_list)
fo.close()

总结

到此这篇关于python数据分析之将爬取的数据保存为csv格式的文章就介绍到这了,更多相关python爬取数据保存csv格式内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python爬取网页数据到保存到csv

目录任务需求: 爬取网址: 网址页面: 代码实现结果: 代码实现: 完整代码: 总结任务需求: 爬取一个网址,将网址的数据保存到csv中. 爬取网址: https://www.iqiyi.com/ranks1/1/0?vfrm=pcw_home&vfrmblk=&vfrmrst=712211_dianyingbang_rebo_title 网址页面: 代码实现结果: 代码实现: 导入包: import requests import parsel import csv 设置csv文件格
python爬取bilibili网页排名,视频,播放量,点赞量,链接等内容并存储csv文件中

首先要了解html标签,标签有主有次,大致了解以一下,主标签是根标签,也是所有要爬取的标签的结合体先了解一下待会要使用代码属性: #获取属性 a.attrs 获取a所有的属性和属性值,返回一个字典 a.attrs['href'] 获取href属性 a['href'] 也可简写为这种形式 #获取内容 a.string 获取a标签的直系文本注意:如果标签还有标签,那么string获取到的结果为None,而其它两个,可以获取文本内容 a.text 这是属性,获取a子类的所
python数据分析之将爬取的数据保存为csv格式

目录 csv文件 python的csv模块从csv文件读取内容写入csv文件运用实例数据准备将数据存为字典的形式总结 csv文件一种用逗号分割来实现存储表格数据的文本文件. python的csv模块 python遍历代码: arr = [12, 5, 33, 4, 1] #遍历输出1 for i in range(0, len(arr)): item = arr[i] print(item) #遍历输出2 for item in arr: print(item) #遍历输出3 st
一个月入门Python爬虫学习,轻松爬取大规模数据

Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单.容易上手. 利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如: 知乎:爬取优质答案,为你筛选出各话题下最优质的内容. 淘宝.京东:抓取商品.评论及销量数据,对各种商品及用户的消费场景进行分析. 安居客.链家:抓取房产买卖及租售信息,分析房价变化趋势.做不同区域的房价分
python爬取网站数据保存使用的方法

编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了.问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行扩充.中文的话有GB系列.可能还听说过Unicode和UTF-8,那么,它们之间是什么关系呢?Unicode是一种编码方案,又称万国码,可见其包含之广.但是具体存储到计算机上,并不用这种编码,可以说它起着一个中间人的作用.你可以再把Unicode编码(encode)为UTF-8,或者GB,再存储到计算机
python如何爬取网站数据并进行数据可视化

前言爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示.直方图展示.词云展示等并根据可视化的数据做进一步的分析,其余分析和展示读者可自行发挥和扩展包括各种分析和不同的存储方式等..... 一.爬取和分析相关依赖包 Python版本: Python3.6 requests: 下载网页 math: 向上取整 time: 暂停进程 pandas:数据分析并保存为csv文件 matplotlib:
python爬取天气数据的实例详解

就在前几天还是二十多度的舒适温度,今天一下子就变成了个位数,小编已经感受到冬天寒风的无情了.之前对获取天气都是数据上的搜集,做成了一个数据表后,对温度变化的感知并不直观.那么,我们能不能用python中的方法做一个天气数据分析的图形,帮助我们更直接的看出天气变化呢? 使用pygal绘图,使用该模块前需先安装pip install pygal,然后导入import pygal bar = pygal.Line() # 创建折线图 bar.add('最低气温', lows) #添加两线的数据序列 b
Python爬虫爬取疫情数据并可视化展示

目录知识点开发环境爬虫完整代码导入模块分析网站发送请求获取数据解析数据保存数据数据可视化导入模块读取数据死亡率与治愈率各地区确诊人数与死亡人数情况知识点爬虫基本流程 json requests 爬虫当中发送网络请求 pandas 表格处理 / 保存数据 pyecharts 可视化开发环境 python 3.8 比较稳定版本解释器发行版 anaconda jupyter notebook 里面写数据分析代码专业性 pycharm 专业代码编辑器按照年份与月
Python实现爬取天气数据并可视化分析

目录核心功能设计实现步骤爬取数据风向风级雷达图温湿度相关性分析 24小时内每小时时段降水 24小时累计降雨量今天我们分享一个小案例,获取天气数据,进行可视化分析,带你直观了解天气情况! 核心功能设计总体来说,我们需要先对中国天气网中的天气数据进行爬取,保存为csv文件,并将这些数据进行可视化分析展示. 拆解需求,大致可以整理出我们需要分为以下几步完成: 1.通过爬虫获取中国天气网7.20-7.21的降雨数据,包括城市,风力方向,风级,降水量,相对湿度,空气质量. 2.对获取的天气数
利用Python爬虫爬取金融期货数据的案例分析

目录任务简介解决步骤代码实现总结大家好我是政胤今天教大家爬取金融期货数据任务简介首先,客户原需求是获取https://hq.smm.cn/copper网站上的价格数据(注:获取的是网站上的公开数据),如下图所示: 如果以该网站为目标,则需要解决的问题是“登录”用户,再将价格解析为表格进行输出即可.但是,实际上客户核心目标是获取“沪铜CU2206”的历史价格,虽然该网站也有提供数据,但是需要“会员”才可以访问,而会员需要氪金...... 数据的价值!!! 鉴于,客户需求仅仅是“沪铜
使用python爬取微博数据打造一颗“心”

前言一年一度的虐狗节终于过去了,朋友圈各种晒,晒自拍,晒娃,晒美食,秀恩爱的.程序员在晒什么,程序员在加班.但是礼物还是少不了的,送什么好?作为程序员,我准备了一份特别的礼物,用以往发的微博数据打造一颗"爱心",我想她一定会感动得哭了吧.哈哈准备工作有了想法之后就开始行动了,自然最先想到的就是用 Python 了,大体思路就是把微博数据爬下来,数据经过清洗加工后再进行分词处理,处理后的数据交给词云工具,配合科学计算工具和绘图工具制作成图像出来,涉及到的工具包有: requests
Python爬取数据保存为Json格式的代码示例

python爬取数据保存为Json格式代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import codecs import json #找到网址 def getDatas(): # 伪装 header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.1