Python json模块与jsonpath模块区别详解

2025-02-21 04:55:05

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

JSON和XML相比较可谓不相上下。

Python 3.X中自带了JSON模块，直接import json就可以使用了。

官方文档：http://docs.python.org/library/json.html

Json在线解析网站：http://www.json.cn/

JSON

json简单来说就是JavaScript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构。

对象：对象在js中表示为{ }括起来的内容，数据结构为{key1: value1, key2:value2, ...}的键值对的结构，在面向对象的语言中，key为对象的属性，value为对应的属性值，所以很容易理解，取值方法为对象.key 获取属性值，这个属性值的类型可以是数字、字符串、数组、对象。

数组：数组在js中是[ ]括起来的内容，数据结构为['Python', ‘JavaScript', 'C++', ...]，取值方式和所有语言一样，使用索引获取，字段值的类型可以是数字、字符串、数组、对象。

json模块

json模块提供了四个功能：dumps、dump、loads、load，用于字符串和Python数据类型间进行转换。

1.json.dumps()

实现Python类型转化为Json字符串，返回一个str对象，从Python到Json的类型转换对照如下：

Python	Json
dict	object
list, tuple	array
str, utf-8	string
int, float	number
True	true
False	false
None	null

#!/usr/bin/python3
# -*- coding:utf-8 -*-
__author__ = 'mayi'

import json

listStr = [1, 2, 3, 4]
tupleStr = (1, 2, 3, 4)
dictStr = {"city": "北京", "name": "蚂蚁"}

print(json.dumps(listStr))
# [1, 2, 3, 4]

print(type(json.dumps(listStr)))
# <class 'str'>

print(json.dumps(tupleStr))
# [1, 2, 3, 4]

print(type(json.dumps(tupleStr)))
# <class 'str'>

# 注意：json.dumps() 序列化时默认使用的ascii编码
# 添加参数 ensure_ascii=False 禁用ascii编码，按utf-8编码
print(json.dumps(dictStr, ensure_ascii = False))
# {"city": "北京", "name": "蚂蚁"}

print(type(json.dumps(dictStr, ensure_ascii = False)))
# <class 'str'>

2.json.dump()

将Python内置类型序列化为Json对象后写入文件

#!/usr/bin/python3
# -*- coding:utf-8 -*-
__author__ = 'mayi'
import json
listStr = [{"city": "北京"}, {"name": "蚂蚁"}]
json.dump(listStr, open("listStr.json", "w", encoding = "utf-8"), ensure_ascii = False)

dictStr = {"city": "北京", "name": "蚂蚁"}
json.dump(dictStr, open("dictStr.json", "w", encoding = "utf-8"), ensure_ascii = False)

3.json.loads()

把Json格式字符串解码转换成Python对象，从Json到Python的类型转换对照如下：

Json	Python
object	dict
array	list
string	utf-8
number(int)	int
number(real)	float
true	True
false	False
null	None

#!/usr/bin/python3
# -*- coding:utf-8 -*-
__author__ = 'mayi'

import json

strList = '[1, 2, 3, 4]'

strDict = '{"city": "北京", "name": "蚂蚁"}'

print(json.loads(strList))
# [1, 2, 3, 4]

# json数据自动按utf-8存储
print(json.loads(strDict))
# {'city': '北京', 'name': '蚂蚁'}

4.json.load()

读取文件中Json形式的字符串，转换成Python类型

#!/usr/bin/python3
# -*- coding:utf-8 -*-
__author__ = 'mayi'
import json
strList = json.load(open("listStr.json", "r", encoding = "utf-8"))
print(strList)
# [{'city': '北京'}, {'name': '蚂蚁'}]

strDict = json.load(open("dictStr.json", "r", encoding = "utf-8"))
print(strDict)
# {'city': '北京', 'name': '蚂蚁'}

JsonPath

JsonPath是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：JavaScript、Python、PHP和Java。

JsonPath对于JSON来说，相当于XPATH对于XML。

下载地址：https://pypi.python.org/pypi/jsonpath

安装方法：下载后解压之后执行 python setup.py install

官方文档：http://goessner.net/articles/JsonPath

JsonPath与XPath语法对比：

JsonPath结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

Xpath	JSONPath	描述
/	$	根节点
.	@	现行节点
/	. or []	取子节点
..	n/a	取父节点，Jsonpath未支持
//	..	不管位置，选择所有符合条件的节点
*	*	匹配所有元素节点
@	n/a	根据属性访问，JsonPath不支持
[]	[]	迭代器（可以在里边做简单的迭代操作，如数组下标，根据内容选值等）
\|	[,]	支持迭代器中做多选
[]	?()	支持过滤操作
n/a	()	支持表达式计算
()	n/a	分组，JsonPath不支持

示例：

以拉勾网城市JSON文件：http://www.lagou.com/lbs/getAllCitySearchLabels.json 为例，获取所有的城市名称。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
__author__ = 'mayi'

import urllib.request
import json
import jsonpath

# 拉勾网城市JSON文件
url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'
# User-Agent头
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

# url 连同 headers，一起构造Request请求，这个请求将附带 chrome 浏览器的User-Agent
request = urllib.request.Request(url, headers = header)

# 向服务器发送这个请求
response = urllib.request.urlopen(request)

# 获取页面内容：bytes
html = response.read()

# 转码：bytes转str
html = html.decode("utf-8")

# 把json格式字符串转换成python对象
obj = json.loads(html)

# 从根节点开始，匹配name节点
city_list = jsonpath.jsonpath(obj, '$..name')

# 打印获取的name节点
print(city_list)
# 打印其类型
print(type(city_list))

# 写入本地磁盘文件
with open("city.json", "w", encoding = "utf-8") as f:
  content = json.dumps(city_list, ensure_ascii = False)
  f.write(content)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

python中的split()函数和os.path.split()函数使用详解

Python中有split()和os.path.split()两个函数: split():拆分字符串.通过指定分隔符对字符串进行切片,并返回分割后的字符串列表. os.path.split():将文件名和路径分割开. 1.split()函数语法:str.split(str=" ",num=string.count(str))[n] 参数说明: str: 表示为分隔符,默认为空格,但是不能为空串.若字符串中没有分隔符,则把整个字符串作为列表的一个元素. num:表示分割次数.如果存在参
详解python路径拼接os.path.join()函数的用法

os.path.join()函数:连接两个或更多的路径名组件 1.如果各组件名首字母不包含'/',则函数会自动加上 demo1 import os Path1 = 'home' Path2 = 'develop' Path3 = 'code' Path10 = Path1 + Path2 + Path3 Path20 = os.path.join(Path1,Path2,Path3) print ('Path10 = ',Path10) print ('Path20 = ',Path20) 输出
python的json中方法及jsonpath模块用法分析

本文实例讲述了python的json中方法及jsonpath模块用法.分享给大家供大家参考,具体如下: 什么是json JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景,比如网站前台与后台之间的数据交互. json模块中方法的学习其中类文件对象的理解: 具有read()或者write()方法的对象就是类文件对象,比如f = open("a.txt",
如何使用python3获取当前路径及os.path.dirname的使用

这篇文章主要介绍了如何使用python3获取当前路径及os.path.dirname的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下方法一: import sys,os os.getcwd()#然后就可以看见结果了方法二: import os os.path.dirname(os.path.realpath('__file__'))#注意:添加单引号 python中的os.path.dirname(__file__)的使用 (1)当"p
python os.path.isfile()因参数问题判断错误的解决

目的: 找出路径坐在的所有python文件(.py结尾),返回列表. 代码: def list_py(path = None): if path == None: path = os.getcwd() return [fname for fname in os.listdir(path) if os.path.isfile(fname) and fname.endswith('.py') 错误: 不传入参数没有问题 >>> list_py() ['cmdtest.py', 'datate
python os.path.isfile 的使用误区详解

下列这几条语句,看出什么问题了不? for file in os.listdir(path): if os.path.isfile(file) and os.path.splitext(file)[1] == '.txt': #打开txt文件,并提取数据冥思苦想,没错啊,为啥 os.path.isfile(file)返回的就是false呢. >>> os.listdir(path) ['cg.A.1.txt', 'cg.A.128.txt', 'cg.A.16.txt', 'cg.A.
python模块和包的应用BASE_PATH使用解析

这篇文章主要介绍了python模块和包的应用BASE_PATH使用解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 python中的模块(module)是管理python应用程序的工具,而包(package)是管理模块的工具.在管理和使用包的时候需要注意,调用注意设置文件的相对路径,以保证程序的可移植性. 下面的小程序主要应用os和sys模块中的一些目录管理方法实现了BASE_PATH的设置. import os import sys BAS
python中import reload __import__的区别详解

import 作用:导入/引入一个python标准模块,其中包括.py文件.带有__init__.py文件的目录(自定义模块). import module_name[,module1,...] from module import *|child[,child1,...] 注意:多次重复使用import语句时,不会重新加载被指定的模块,只是把对该模块的内存地址给引用到本地变量环境. 实例: pythontab.py #!/usr/bin/env python #encoding: utf-8
Python爬虫urllib和requests的区别详解

我们讲了requests的用法以及利用requests简单爬取.保存网页的方法,这节课我们主要讲urllib和requests的区别. 1.获取网页数据第一步,引入模块. 两者引入的模块是不一样的,这一点显而易见. 第二步,简单网页发起的请求. urllib是通过urlopen方法获取数据. requests需要通过网页的响应类型获取数据. 第三步,数据封装. 对于复杂的数据请求,我们只是简单的通过urlopen方法肯定是不行的.最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕
基于python中staticmethod和classmethod的区别(详解)

例子 class A(object): def foo(self,x): print "executing foo(%s,%s)"%(self,x) @classmethod def class_foo(cls,x): print "executing class_foo(%s,%s)"%(cls,x) @staticmethod def static_foo(x): print "executing static_foo(%s)"%x a=A(
基于Python中capitalize()与title()的区别详解

capitalize()与title()都可以实现字符串首字母大写. 主要区别在于: capitalize(): 字符串第一个字母大写 title(): 字符串内的所有单词的首字母大写例如: >>> str='huang bi quan' >>> str.capitalize() 'Huang bi quan' #第一个字母大写 >>> str.title() 'Huang Bi Quan' #所有单词的首字母大写非字母开头的情况: >>
对Python协程之异步同步的区别详解

一下代码通过协程.多线程.多进程的方式,运行代码展示异步与同步的区别. import gevent import threading import multiprocessing # 这里展示同步和异步的性能区别,可以看到异步直接同时执行并完成, # 而同步,需要等待第一个完成后再次执行下一个,是有顺序的执行,而异步不需要 import time def task(pid): gevent.sleep(0.5) print('Task %s done' % pid) def task2(pid)
对Python中Iterator和Iterable的区别详解

Python中 list,truple,str,dict这些都可以被迭代,但他们并不是迭代器.为什么? 因为和迭代器相比有一个很大的不同,list/truple/map/dict这些数据的大小是确定的,也就是说有多少事可知的.但迭代器不是,迭代器不知道要执行多少次,所以可以理解为不知道有多少个元素,每调用一次next(),就会往下走一步,是惰性的. 判断是不是可以迭代,用Iterable from collections import Iterable isinstance({}, Iterab
Python中生成器和迭代器的区别详解

Python中生成器和迭代器的区别(代码在Python3.5下测试): Num01–>迭代器定义: 对于list.string.tuple.dict等这些容器对象,使用for循环遍历是很方便的.在后台for语句对容器对象调用iter()函数.iter()是python内置函数. iter()函数会返回一个定义了next()方法的迭代器对象,它在容器中逐个访问容器内的元素.next()也是python内置函数.在没有后续元素时,next()会抛出一个StopIteration异常,通知for语句
对Python w和w+权限的区别详解

今日上课,有位同学问到:w和w+有何区别呢. 说实话,我们经常只是用一种权限,没用在意之间的区别,实际上,w+具有可读可写权限,而w只有可写权限. 下面上代码: fd=open('d:\\test.txt','w+') fd.write('123') fd.close() 如果这样用,确实两者没有区别,但是在下面就有区别了. fd=open('d:\\test.txt','w+') fd.write('123') fd.seek(0) print(fd.read()) fd.close() #首
对python中return与yield的区别详解

首先比较下return 与 yield的区别: return:在程序函数中返回某个值,返回之后函数不在继续执行,彻底结束. yield: 带有yield的函数是一个迭代器,函数返回某个值时,会停留在某个位置,返回函数值后,会在前面停留的位置继续执行,直到程序结束首先,如果你还没有对yield有个初步分认识,那么你先把yield看做"return",这个是直观的,它首先是个return,普通的return是什么意思,就是在程序中返回某个值,返回之后程序就不再往下运行了.看做return
python 字典item与iteritems的区别详解

综述迭代器对于原生支持随机访问的数据结构(如tuple.list),迭代器和经典for循环的索引访问相比并无优势,反而丢失了索引值(可以使用内建函数enumerate()找回这个索引值).但对于无法随机访问的数据结构(比如set)而言,迭代器是唯一的访问元素的方式. 另外,迭代器的一大优点是不要求事先准备好整个迭代过程中所有的元素.迭代器仅仅在迭代到某个元素时才计算该元素,而在这之前或之后,元素可以不存在或者被销毁.这个特点使得它特别适合用于遍历一些巨大的或是无限的集合,比如几个G的文件,或是

Python json模块与jsonpath模块区别详解

相关推荐

随机推荐