分析Python中解析构建数据知识

2025-02-19 06:16:59

Python 可以通过各种库去解析我们常见的数据。其中 csv 文件以纯文本形式存储表格数据，以某字符作为分隔值，通常为逗号；xml 可拓展标记语言，很像超文本标记语言 Html ，但主要对文档和数据进行结构化处理，被用来传输数据；json 作为一种轻量级数据交换格式，比 xml 更小巧但描述能力却不差，其本质是特定格式的字符串；Microsoft Excel 是电子表格，可进行各种数据的处理、统计分析和辅助决策操作，其数据格式为 xls、xlsx。接下来主要介绍通过 Python 简单解析构建上述数据，完成数据的“珍珠翡翠白玉汤”。

Python 解析构建 csv

通过标准库中的 csv 模块，使用函数 reader()、writer() 完成 csv 数据基本读写。

import csv
with open('readtest.csv', newline='') as csvfile:
reader = csv.reader(csvfile)
for row in reader:
print(row)
with open('writetest.csv', 'w', newline='') as csvfile:
writer = csv.writer(csvfile)
writer.writerrow("onetest")
writer.writerows("someiterable")

其中 reader() 返回迭代器， writer() 通过 writerrow() 或 writerrows() 写入一行或多行数据。两者还可通过参数 dialect 指定编码方式，默认以 excel 方式，即以逗号分隔，通过参数 delimiter 指定分隔字段的单字符，默认为逗号。

在 Python3 中，打开文件对象 csvfile ，需要通过 newline='' 指定换行处理，这样读取文件时，新行才能被正确地解释；而在 Python2 中，文件对象 csvfile 必须以二进制的方式 'b' 读写，否则会将某些字节（0x1A）读写为文档结束符（EOF），导致文档读取不全。

除此之外，还可使用 csv 模块中的类 DictReader()、DictWriter() 进行字典方式读写。

import csv
with open('readtest.csv', newline='') as csvfile:
  reader = csv.DictReader(csvfile)
  for row in reader:
    print(row['first_test'], row['last_test'])
with open('writetest.csv', 'w', newline='') as csvfile:
  fieldnames = ['first_test', 'last_test']
  writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
  writer.writeheader()
  writer.writerow({'first_test': 'hello', 'last_test': 'wrold'})
  writer.writerow({'first_test': 'Hello', 'last_test': 'World'})
  #writer.writerows([{'first_test': 'hello', 'last_test': 'wrold'}, {'first_test': 'Hello', 'last_test': 'World'}])

其中 DictReader() 返回有序字典，使得数据可通过字典的形式访问，键名由参数 fieldnames 指定，默认为读取的第一行。

DictWriter() 必须指定参数 fieldnames 说明键名，通过 writeheader() 将键名写入，通过 writerrow() 或 writerrows() 写入一行或多行字典数据。

Python 解析构建 xml

通过标准库中的 xml.etree.ElementTree 模块，使用 Element、ElementTree 完成 xml 数据的读写。

from xml.etree.ElementTree import Element, ElementTree
root = Element('language')
root.set('name', 'python')
direction1 = Element('direction')
direction2 = Element('direction')
direction3 = Element('direction')
direction4 = Element('direction')
direction1.text = 'Web'
direction2.text = 'Spider'
direction3.text = 'BigData'
direction4.text = 'AI'
root.append(direction1)
root.append(direction2)
root.append(direction3)
root.append(direction4)
#import itertools
#root.extend(chain(direction1, direction2, direction3, direction4))
tree = ElementTree(root)
tree.write('xmltest.xml')

写 xml 文件时，通过 Element() 构建节点，set() 设置属性和相应值，append() 添加子节点，extend() 结合循环器中的 chain() 合成列表添加一组节点，text 属性设置文本值，ElementTree() 传入根节点构建树，write() 写入 xml 文件。

import xml.etree.ElementTree as ET
tree = ET.parse('xmltest.xml')
#from xml.etree.ElementTree import ElementTree
#tree = ElementTree().parse('xmltest.xml')
root = tree.getroot()
tag = root.tag
attrib = root.attrib
text = root.text
direction1 = root.find('direction')
direction2 = root[1]
directions = root.findall('.//direction')
for direction in root.findall('direction'):
  print(direction.text)
for direction in root.iter('direction'):
  print(direction.text)
root.remove(direction2)

读 xml 文件时，通过 ElementTree() 构建空树，parse() 读入 xml 文件，解析映射到空树；getroot() 获取根节点，通过下标可访问相应的节点；tag 获取节点名，attrib 获取节点属性字典，text 获取节点文本；find() 返回匹配到节点名的第一个节点，findall() 返回匹配到节点名的所有节点，find()、findall() 两者都仅限当前节点的一级子节点，都支持 xpath 路径提取节点；iter() 创建树迭代器，遍历当前节点的所有子节点，返回匹配到节点名的所有节点；remove() 移除相应的节点。

除此之外，还可通过 xml.sax、xml.dom.minidom 去解析构建 xml 数据。其中 sax 是基于事件处理的；dom 是将 xml 数据在内存中解析成一个树，通过对树的操作来操作 xml；而 ElementTree 是轻量级的 dom ，具有简单而高效的API，可用性好，速度快，消耗内存少，但生成的数据格式不美观，需要手动格式化。

Python 解析构建 json

通过标准库中的 json 模块，使用函数 dumps()、loads() 完成 json 数据基本读写。

>>> import json
>>> json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}])
'["foo", {"bar": ["baz", null, 1.0, 2]}]'
>>> json.loads('["foo", {"bar":["baz", null, 1.0, 2]}]')
['foo', {'bar': ['baz', None, 1.0, 2]}]

json.dumps() 是将 obj 序列化为 json 格式的 str，而 json.loads() 是反向操作。其中 dumps() 可通过参数 ensure_ascii 指定是否使用 ascii 编码，默认为 True；通过参数 separators=(',', ':') 指定 json 数据格式中的两种分隔符；通过参数 sort_keys 指定是否使用排序，默认为 False。

除此之外，还可使用 json 模块中的函数 dump()、load() 进行 json 数据读写。

import json
with open('jsontest.json', 'w') as jsonfile:
json.dump(['foo', {'bar': ('baz', None, 1.0, 2)}], jsonfile)
with open('jsontest.json') as jsonfile:
json.load(jsonfile)

功能与 dumps()、loads() 相同，但接口不同，需要与文件操作结合，多传入一个文件对象。

Python 解析构建 excel

通过 pip 安装第三方库 xlwt、xlrd 模块，完成 excel 数据的读写。

import xlwt
wbook = xlwt.Workbook(encoding='utf-8')
wsheet = wbook.add_sheet('sheet1')
wsheet.write(0, 0, 'Hello World')
wbook.save('exceltest.xls')

写 excel 数据时，通过 xlwt.Workbook() 指定编码格式参数 encoding 创建工作表，add_sheet() 添加表单，write() 在相应的行列单元格中写入数据，save() 保存工作表。

import xlrd
rbook = xlrd.open_workbook('exceltest.xls')
rsheet = book.sheets()[0]
#rsheet = book.sheet_by_index(0)
#rsheet = book.sheet_by_name('sheet1')
nr = rsheet.nrows
nc = rsheet.ncols
rv = rsheet.row_values(0)
cv = rsheet.col_values(0)
cell = rsheet.cell_value(0, 0)

读 excel 数据时，通过 xlrd.open_workbook() 打开相应的工作表，可使用列表下标、表索引 sheet_by_index()、表单名 sheet_by_name() 三种方式获取表单名，nrows 获取行数，ncols 获取列数，row_values() 返回相应行的值列表，col_values() 返回相应列的值列表，cell_value() 返回相应行列的单元格值。

分析Python中解析构建数据知识

Python 可以通过各种库去解析我们常见的数据.其中 csv 文件以纯文本形式存储表格数据,以某字符作为分隔值,通常为逗号:xml 可拓展标记语言,很像超文本标记语言 Html ,但主要对文档和数据进行结构化处理,被用来传输数据:json 作为一种轻量级数据交换格式,比 xml 更小巧但描述能力却不差,其本质是特定格式的字符串:Microsoft Excel 是电子表格,可进行各种数据的处理.统计分析和辅助决策操作,其数据格式为 xls.xlsx.接下来主要介绍通过 Python 简单解析构建
详细解读Python中解析XML数据的方法

Python可以使用 xml.etree.ElementTree 模块从简单的XML文档中提取数据. 为了演示,假设你想解析Planet Python上的RSS源.下面是相应的代码: from urllib.request import urlopen from xml.etree.ElementTree import parse # Download the RSS feed and parse it u = urlopen('http://planet.python.org/rss20.xm
分析如何在Python中解析和修改XML

目录一.什么是XML? 二.Python XML解析模块 2.1.xml.etree.ElementTree模块 2.2.xml.dom.minidom模块一.什么是XML? XML代表可扩展标记语言.它在外观上类似于HTML,但XML用于数据表示,而HTML用于定义正在使用的数据.XML专门设计用于在客户端和服务器之间来回发送和接收数据.看看下面的例子: 例子: <? xml version ="1.0" encoding ="UTF-8" ?>
python中解析json格式文件的方法示例

前言 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集. JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等).这些特性使JSON成为理想的数据交换语言.易于人阅读和编写,同时也易于机器解析和生成. 本文主要介
class类在python中获取金融数据的实例方法

我们搜集金融数据,通常想要的是利用爬虫的方法.其实我们最近所学的class不仅可以进行类调用,在获取数据方面同样是可行的,很多小伙伴都比较关注理财方面的情况,对金融数据的需要也是比较多的.下面就class类在python中获取金融数据的方法为大家带来讲解. 使用tushare获取所有A股每日交易数据,保存到本地数据库,同时每日更新数据库:根据行情数据进行可视化和简单的策略分析与回测.由于篇幅有限,本文着重介绍股票数据管理(下载.数据更新)的面向对象编程应用实例. #导入需要用到的模块 impor
详解Python中如何将数据存储为json格式的文件

一.基于json模块的存储.读取数据 names_writer.py import json names = ['joker','joe','nacy','timi'] filename='names.json' with open(filename,'w') as file_obj: json.dump(names,file_obj) 解释:我们先导入json模块,再创建一个名字列表,第5行我们指定了要将该列表存储到其中的文件的名称.通常使用扩展名.json来指出文件存储的数据为json格式.
详解Python中生成随机数据的示例详解

目录随机性有多随机加密安全性 PRNG random 模块数组 numpy.random 相关数据的生成 random模块与NumPy对照表 CSPRNG 尽可能随机 os.urandom() secrets 最佳保存方式 UUID 工程随机性的比较在日常工作编程中存在着各种随机事件,同样在编程中生成随机数字的时候也是一样,随机有多随机呢?在涉及信息安全的情况下,它是最重要的问题之一.每当在 Python 中生成随机数据.字符串或数字时,最好至少大致了解这些数据是如何生成的. 用于在 P
python中json格式数据输出的简单实现方法

主要使用json模块,直接导入import json即可. 小例子如下: #coding=UTF-8 import json info={} info["code"]=1 info["id"]=1900 info["name"]='张三' info["sex"]='男' list=[info,info,info] data={} data["code"]=1 data["id"]=190
Python中json格式数据的编码与解码方法详解

本文实例讲述了Python中json格式数据的编码与解码方法.分享给大家供大家参考,具体如下: python从2.6版本开始内置了json数据格式的处理方法. 1.json格式数据编码在python中,json数据格式编码使用json.dumps方法. #!/usr/bin/env python #coding=utf8 import json users = [{'name': 'tom', 'age': 22}, {'name': 'anny', 'age': 18}] #元组对象也可以
Python 中导入csv数据的三种方法

Python 中导入csv数据的三种方法,具体内容如下所示: 1.通过标准的Python库导入CSV文件: Python提供了一个标准的类库CSV文件.这个类库中的reader()函数用来导入CSV文件.当CSV文件被读入后,可以利用这些数据生成一个NumPy数组,用来训练算法模型.: from csv importreader import numpy as np filename=input("请输入文件名: ") withopen(filename,'rt',encoding='

分析Python中解析构建数据知识

相关推荐

随机推荐