Python操作HDF5文件示例

目录
  • 引言
  • 创建文件和数据集
  • 写数据集
  • 读数据集

引言

在Matlab操作HDF5文件中已经详细介绍了HDF5文件已经利用Matlab对其进行操作的方法。这篇文章总结一下如何在Python下使用HDF5文件。我们仍然按照Matlab操作HDF5文件的顺序进行,分别是创建HDF5文件,写入数据,读取数据。

Python下的HDF5文件依赖h5py工具包

创建文件和数据集

使用`h5py.File()方法创建hdf5文件

h5file = h5py.File(filename,'w')

然后在此基础上创建数据集

X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),             #数据集的维度
                              maxshape = (None,args.patch_size,args.patch_size),                #数据集的允许最大维度 
                              dtype=float,compression='gzip',name='train',                      #数据类型、是否压缩,以及数据集的名字
                              chunks=(args.chunk_size,args.patch_size,args.patch_size))         #分块存储,每一分块的大小

最为关系的两个参数为shape和maxshape,很显然我们希望数据集的某一个维度是可以扩展的,所以在maxshape中,将希望扩展的维度标记为None,其他维度和shape参数里面的一样。还有一点值得注意的是,使用compression='gzip'以后,整个数据集能够被极大的压缩,对比较大的数据集非常又用,并且在数据读写的时候,不用用户显式的解码。

写数据集

在使用上面的creat_dataset创建了dataset以后,读写数据集就如同读写numpy数组一样方便,比如上面的函数定义了数据集'train',也就是变量X以后,可以下面的方法来读写:

data = np.zeros((100,args.patch_size,arg))
X[0:100,:,:] = data

在前面创建数据集的时候,我们定义shape = (args.chunk_size,args.patch_size,args.patch_size),如果有更多的数据,怎么办呢?

可以使用resize方法来扩展在maxshape中定义为None的那个维度:

X.resize(X.shape[0]+args.chunk_size,axis=0)

因为我们在maxshape=(None,args.patch_size,args.patch_size)中将第零个维度定义为可扩展,所以,首先我们用X.shape[0]来找到该维度的长度,并将其扩展。该维度扩展以后,就可以继续向里面写入数据了。

读数据集

读取h5文件的方法也非常简单,首先利用h5py.File方法打开对应的h5文件,然后将里面的某个数据集取出至变量,对这个变量的读取就如同numpy一样了。

h = h5py.File(hd5file,'r')
train = h['train']
train[1]
train[2]
...

但是上面的读取方法存在一个问题就是每一次使用的时候(train[1],train[2])都需要从硬盘读取数据,这将会导致读取的速度比较慢。一个比较好的方法是,每次从硬盘读取一个chunk_size的数据,然后将这些数据存储到内存中,在需要的时候从内存中读取,比如使用下面的方法:

h = h5py.File(hd5file,'r')
train = h['train']
X = train[0:100]         #一次从硬盘中读取比较多的数据,X将存储在内存中
X[1]                     #从内存中读取
X[2]                     #从内存中读取

这样的方法就会快很多。

以上就是Python操作HDF5文件示例的详细内容,更多关于Python操作HDF5文件的资料请关注我们其它相关文章!

(0)

相关推荐

  • Matlab操作HDF5文件示例

    目录 HDF5文件 使用Matlab操作HDF5文件 使用Matlab创建HDF5文件 使用Matlab写入HDF5 使用Matlab查看HDF5文件信息 使用Matlab读取HDF5中的数据集 HDF5文件 在使用Matlab对数据进行预处理时,遇到了内存不足的问题,因为数据量太大,在处理完成以前内存已经爆满.如果使用Matlab的.m文件对文件进行存储的话,则需要将数据分割成多个文件,对后续的处理造成了不便.HDF5文件则是一种灵活的文件存储格式,有一个最大的好处就是在Matlab的处理过程

  • R语言rhdf5读写hdf5并展示文件组织结构和索引数据

    前言 h5只是一种简单的数据组织格式[层级数据存储格式(HierarchicalDataFormat:HDF)],该格式被设计用以存储和组织大量数据. 在一些单细胞文献中,作者通常会将分析的数据上传到GEO数据库保存为.h5格式文件,而不是我们常见的工程文件(rds文件,表格数据等),所以为了解析利用这些数据需要对hdf5格式的组织结构有一定的了解. (注:在Seurat包中有现成的函数Seurat::Read10X_h5()可以用来提取表达矩阵,但似乎此外无法从h5文件中提取更多的信息). G

  • Python存储读取HDF5文件代码解析

    HDF5 简介 HDF(Hierarchical Data Format)指一种为存储和处理大容量科学数据设计的文件格式及相应库文件.HDF 最早由美国国家超级计算应用中心 NCSA 开发,目前在非盈利组织 HDF 小组维护下继续发展.当前流行的版本是 HDF5.HDF5 拥有一系列的优异特性,使其特别适合进行大量科学数据的存储和操作,如它支持非常多的数据类型,灵活,通用,跨平台,可扩展,高效的 I/O 性能,支持几乎无限量(高达 EB)的单文件存储等,详见其官方介绍:https://suppo

  • 如何用pandas处理hdf5文件

    什么是HDF5 HDF5:Hierarchical Data Format Version 5,对于存储大规模.具有相同类型的数据,HDF5是一种非常不错的存储格式,文件后缀名为h5.这种格式的文件的存储和读取速度非常快,并且我们可以把HDF5文件看成是一个"目录",它是分层次的,我们来看看如何操作. 创建和读取HDF5文件 import pandas as pd import numpy as np hdf5 = pd.HDFStore("hello.h5", m

  • python3 hdf5文件 遍历代码

    看代码吧~ import h5py import numpy as np f = h5py.File('train/e1_1.hdf5') key = "" for k in f.keys(): key = k d = f[key] print(d) a = np.ones(d.shape) d.read_direct(a) print(a) f.close() 补充:HDF5 文件及Python模块之h5py HDF5文件 什么是HDF5文件呢? 先引用一波维基百科的介绍,『层级数据

  • python可视化hdf5文件的操作

    对于一些复杂的hdf5文件,通过可视化的方法可以比较容易的了解文件的内部结构,下面介绍基于python的一个hdf5文件的安装使用方法 1 安装vitables工具包 命令 pip install vitables 2 安装完成后在终端中使用命令 vitables 文件名.hdf5 最终实现hdf5文件的可视化,方便直观就像一层层打开文件夹一样 补充:python对于HDF5的操作 看代码吧~ import h5py #导入工具包 import numpy as np #HDF5的写入: img

  • Python操作HDF5文件示例

    目录 引言 创建文件和数据集 写数据集 读数据集 引言 在Matlab操作HDF5文件中已经详细介绍了HDF5文件已经利用Matlab对其进行操作的方法.这篇文章总结一下如何在Python下使用HDF5文件.我们仍然按照Matlab操作HDF5文件的顺序进行,分别是创建HDF5文件,写入数据,读取数据. Python下的HDF5文件依赖h5py工具包 创建文件和数据集 使用`h5py.File()方法创建hdf5文件 h5file = h5py.File(filename,'w') 然后在此基础

  • python操作xml文件示例

    复制代码 代码如下: def get_seed_data(filename):dom = minidom.parse(filename)root = dom.documentElementsystem_nodes = root.getElementsByTagName("system")k = 0seed_list = []for system_node in system_nodes:    #print system_node.nodeName+' id='+system_node

  • python操作toml文件的示例代码

    # -*- coding: utf-8 -*- # @Time : 2019-11-18 09:31 # @Author : cxa # @File : toml_demo.py # @Software: PyCharm import toml import os BASE_DIR = os.path.dirname(os.path.abspath(__file__)) class FileOperation: def __init__(self): self.dic = dict() self

  • 如何基于python操作json文件获取内容

    这篇文章主要介绍了如何基于python操作json文件获取内容,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 写case时,将case 写到json文件比写到,写python一定要学会处理json 以下,是要处理的json 处理操作包括:打开json文件,获取json文件内容,关闭json文件,读取内容中的对应key的value { "name": "BeJson", "url": "

  • Python操作csv文件之csv.writer()和csv.DictWriter()方法的基本使用

    目录 一.csv.writer()方法的基本使用 二.csv.DictWriter()方法的基本使用 总结 一.csv.writer()方法的基本使用 示例代码1: import csv data = [ (1,"cat",18), (2,"dog",17), (3,"tigger",16), ] f = open('test.csv','a',encoding='utf8',newline='') writer = csv.writer(f)

  • 使用Python操作excel文件的实例代码

    使用的类库 pip install openpyxl 操作实现 •工作簿操作 # coding: utf-8 from openpyxl import Workbook # 创建一个excel工作簿 wb = Workbook() # 打开一个工作簿 wb = load_workbook('test.xlsx') # 保存工作簿到文件 wb.save('save.xlsx') •工作表操作 # 获得当前的工作表对象 ws = wb.active # 通过工作表名称得到工作表对象 ws = wb.

  • python操作xlsx文件的包openpyxl实例

    Python扩展库openpyxl,可以操作07版以上的xlsx文件.可以创建工作簿.选择活动工作表.写入单元格数据,设置单元格字体颜色.边框样式,合并单元格,设置单元格背景等等. 需要增加可以颜色进入包安装目录的 your_pthon_path/site-packages/openpyxl/styles 修改colors.py文件下的 COLOR_INDEX = ( '00000000', '00FFFFFF', '00FF0000', '0000FF00', '000000FF', #0-4

  • python操作excel文件并输出txt文件的实例

    如下所示: #coding=utf-8 import os import xlrd #excel文件放置在当前路径 path='model.xls' #打开文件 data=xlrd.open_workbook(path) #查询工作表 sheets=data.sheets() #可以通过函数.索引.名称获得工作表. # sheet_1_by_function=data.sheets()[0] # sheet_1_by_index=data.sheet_by_index(0) sheet_1_by

  • python操作链表的示例代码

    class Node: def __init__(self,dataval=None): self.dataval=dataval self.nextval=None class SLinkList: def __init__(self): self.headval=None # 遍历列表 def traversal_slist(self): head_node=self.headval while head_node is not None: print(head_node.dataval)

随机推荐