Python操作HDF5文件示例

2025-03-26 23:04:54

引言

在Matlab操作HDF5文件中已经详细介绍了HDF5文件已经利用Matlab对其进行操作的方法。这篇文章总结一下如何在Python下使用HDF5文件。我们仍然按照Matlab操作HDF5文件的顺序进行，分别是创建HDF5文件，写入数据，读取数据。

Python下的HDF5文件依赖h5py工具包

创建文件和数据集

使用`h5py.File()方法创建hdf5文件

h5file = h5py.File(filename,'w')

然后在此基础上创建数据集

X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),　            #数据集的维度
                              maxshape = (None,args.patch_size,args.patch_size),                #数据集的允许最大维度　
                              dtype=float,compression='gzip',name='train',                      #数据类型、是否压缩，以及数据集的名字
                              chunks=(args.chunk_size,args.patch_size,args.patch_size))         #分块存储，每一分块的大小

最为关系的两个参数为shape和maxshape，很显然我们希望数据集的某一个维度是可以扩展的，所以在maxshape中，将希望扩展的维度标记为None，其他维度和shape参数里面的一样。还有一点值得注意的是，使用compression='gzip'以后，整个数据集能够被极大的压缩，对比较大的数据集非常又用，并且在数据读写的时候，不用用户显式的解码。

写数据集

在使用上面的creat_dataset创建了dataset以后，读写数据集就如同读写numpy数组一样方便，比如上面的函数定义了数据集'train'，也就是变量X以后，可以下面的方法来读写：

data = np.zeros((100,args.patch_size,arg))
X[0:100,:,:] = data

在前面创建数据集的时候，我们定义shape = (args.chunk_size,args.patch_size,args.patch_size)，如果有更多的数据，怎么办呢？

可以使用resize方法来扩展在maxshape中定义为None的那个维度:

X.resize(X.shape[0]+args.chunk_size,axis=0)

因为我们在maxshape=(None,args.patch_size,args.patch_size)中将第零个维度定义为可扩展，所以，首先我们用X.shape[0]来找到该维度的长度，并将其扩展。该维度扩展以后，就可以继续向里面写入数据了。

读数据集

读取h5文件的方法也非常简单，首先利用h5py.File方法打开对应的h5文件，然后将里面的某个数据集取出至变量，对这个变量的读取就如同numpy一样了。

h = h5py.File(hd5file,'r')
train = h['train']
train[1]
train[2]
...

但是上面的读取方法存在一个问题就是每一次使用的时候(train[1],train[2])都需要从硬盘读取数据，这将会导致读取的速度比较慢。一个比较好的方法是，每次从硬盘读取一个chunk_size的数据，然后将这些数据存储到内存中，在需要的时候从内存中读取，比如使用下面的方法：

h = h5py.File(hd5file,'r')
train = h['train']
X = train[0:100]         #一次从硬盘中读取比较多的数据，X将存储在内存中
X[1]                     #从内存中读取
X[2]                     #从内存中读取

这样的方法就会快很多。

以上就是Python操作HDF5文件示例的详细内容，更多关于Python操作HDF5文件的资料请关注我们其它相关文章！

如何用pandas处理hdf5文件

什么是HDF5 HDF5:Hierarchical Data Format Version 5,对于存储大规模.具有相同类型的数据,HDF5是一种非常不错的存储格式,文件后缀名为h5.这种格式的文件的存储和读取速度非常快,并且我们可以把HDF5文件看成是一个"目录",它是分层次的,我们来看看如何操作. 创建和读取HDF5文件 import pandas as pd import numpy as np hdf5 = pd.HDFStore("hello.h5", m
Matlab操作HDF5文件示例

目录 HDF5文件使用Matlab操作HDF5文件使用Matlab创建HDF5文件使用Matlab写入HDF5 使用Matlab查看HDF5文件信息使用Matlab读取HDF5中的数据集 HDF5文件在使用Matlab对数据进行预处理时,遇到了内存不足的问题,因为数据量太大,在处理完成以前内存已经爆满.如果使用Matlab的.m文件对文件进行存储的话,则需要将数据分割成多个文件,对后续的处理造成了不便.HDF5文件则是一种灵活的文件存储格式,有一个最大的好处就是在Matlab的处理过程
python3 hdf5文件遍历代码

看代码吧~ import h5py import numpy as np f = h5py.File('train/e1_1.hdf5') key = "" for k in f.keys(): key = k d = f[key] print(d) a = np.ones(d.shape) d.read_direct(a) print(a) f.close() 补充:HDF5 文件及Python模块之h5py HDF5文件什么是HDF5文件呢? 先引用一波维基百科的介绍,『层级数据
Python存储读取HDF5文件代码解析

HDF5 简介 HDF(Hierarchical Data Format)指一种为存储和处理大容量科学数据设计的文件格式及相应库文件.HDF 最早由美国国家超级计算应用中心 NCSA 开发,目前在非盈利组织 HDF 小组维护下继续发展.当前流行的版本是 HDF5.HDF5 拥有一系列的优异特性,使其特别适合进行大量科学数据的存储和操作,如它支持非常多的数据类型,灵活,通用,跨平台,可扩展,高效的 I/O 性能,支持几乎无限量(高达 EB)的单文件存储等,详见其官方介绍:https://suppo
python可视化hdf5文件的操作

对于一些复杂的hdf5文件,通过可视化的方法可以比较容易的了解文件的内部结构,下面介绍基于python的一个hdf5文件的安装使用方法 1 安装vitables工具包命令 pip install vitables 2 安装完成后在终端中使用命令 vitables 文件名.hdf5 最终实现hdf5文件的可视化,方便直观就像一层层打开文件夹一样补充:python对于HDF5的操作看代码吧~ import h5py #导入工具包 import numpy as np #HDF5的写入: img
R语言rhdf5读写hdf5并展示文件组织结构和索引数据

前言 h5只是一种简单的数据组织格式[层级数据存储格式(HierarchicalDataFormat:HDF)],该格式被设计用以存储和组织大量数据. 在一些单细胞文献中,作者通常会将分析的数据上传到GEO数据库保存为.h5格式文件,而不是我们常见的工程文件(rds文件,表格数据等),所以为了解析利用这些数据需要对hdf5格式的组织结构有一定的了解. (注:在Seurat包中有现成的函数Seurat::Read10X_h5()可以用来提取表达矩阵,但似乎此外无法从h5文件中提取更多的信息). G
Python操作HDF5文件示例

目录引言创建文件和数据集写数据集读数据集引言在Matlab操作HDF5文件中已经详细介绍了HDF5文件已经利用Matlab对其进行操作的方法.这篇文章总结一下如何在Python下使用HDF5文件.我们仍然按照Matlab操作HDF5文件的顺序进行,分别是创建HDF5文件,写入数据,读取数据. Python下的HDF5文件依赖h5py工具包创建文件和数据集使用`h5py.File()方法创建hdf5文件 h5file = h5py.File(filename,'w') 然后在此基础
python操作xml文件示例

复制代码代码如下: def get_seed_data(filename):dom = minidom.parse(filename)root = dom.documentElementsystem_nodes = root.getElementsByTagName("system")k = 0seed_list = []for system_node in system_nodes: #print system_node.nodeName+' id='+system_node
python操作toml文件的示例代码

# -*- coding: utf-8 -*- # @Time : 2019-11-18 09:31 # @Author : cxa # @File : toml_demo.py # @Software: PyCharm import toml import os BASE_DIR = os.path.dirname(os.path.abspath(__file__)) class FileOperation: def __init__(self): self.dic = dict() self
如何基于python操作json文件获取内容

这篇文章主要介绍了如何基于python操作json文件获取内容,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下写case时,将case 写到json文件比写到,写python一定要学会处理json 以下,是要处理的json 处理操作包括:打开json文件,获取json文件内容,关闭json文件,读取内容中的对应key的value { "name": "BeJson", "url": "
Python操作csv文件之csv.writer()和csv.DictWriter()方法的基本使用

目录一.csv.writer()方法的基本使用二.csv.DictWriter()方法的基本使用总结一.csv.writer()方法的基本使用示例代码1: import csv data = [ (1,"cat",18), (2,"dog",17), (3,"tigger",16), ] f = open('test.csv','a',encoding='utf8',newline='') writer = csv.writer(f)
使用Python操作excel文件的实例代码

使用的类库 pip install openpyxl 操作实现 •工作簿操作 # coding: utf-8 from openpyxl import Workbook # 创建一个excel工作簿 wb = Workbook() # 打开一个工作簿 wb = load_workbook('test.xlsx') # 保存工作簿到文件 wb.save('save.xlsx') •工作表操作 # 获得当前的工作表对象 ws = wb.active # 通过工作表名称得到工作表对象 ws = wb.
python操作xlsx文件的包openpyxl实例

Python扩展库openpyxl,可以操作07版以上的xlsx文件.可以创建工作簿.选择活动工作表.写入单元格数据,设置单元格字体颜色.边框样式,合并单元格,设置单元格背景等等. 需要增加可以颜色进入包安装目录的 your_pthon_path/site-packages/openpyxl/styles 修改colors.py文件下的 COLOR_INDEX = ( '00000000', '00FFFFFF', '00FF0000', '0000FF00', '000000FF', #0-4
python操作excel文件并输出txt文件的实例

如下所示: #coding=utf-8 import os import xlrd #excel文件放置在当前路径 path='model.xls' #打开文件 data=xlrd.open_workbook(path) #查询工作表 sheets=data.sheets() #可以通过函数.索引.名称获得工作表. # sheet_1_by_function=data.sheets()[0] # sheet_1_by_index=data.sheet_by_index(0) sheet_1_by
python操作链表的示例代码

class Node: def __init__(self,dataval=None): self.dataval=dataval self.nextval=None class SLinkList: def __init__(self): self.headval=None # 遍历列表 def traversal_slist(self): head_node=self.headval while head_node is not None: print(head_node.dataval)

Python操作HDF5文件示例

目录

引言

创建文件和数据集

写数据集

读数据集

相关推荐

随机推荐