Pytorch如何加载自己的数据集(使用DataLoader读取Dataset)

2026-05-08 19:34:22

1.Pytorch加载数据集会用到官方整理好的数据集

很多时候我们需要加载自己的数据集，这时候我们需要使用Dataset和DataLoader

Dataset：是被封装进DataLoader里，实现该方法封装自己的数据和标签。
DataLoader：被封装入DataLoaderIter里，实现该方法达到数据的划分。

2.Dataset

阅读源码后，我们可以指导，继承该方法必须实现两个方法：

_getitem_()
_len_()

因此，在实现过程中我们测试如下：

import torch
import numpy as np

# 定义GetLoader类，继承Dataset方法，并重写__getitem__()和__len__()方法
class GetLoader(torch.utils.data.Dataset):
	# 初始化函数，得到数据
    def __init__(self, data_root, data_label):
        self.data = data_root
        self.label = data_label
    # index是根据batchsize划分数据后得到的索引，最后将data和对应的labels进行一起返回
    def __getitem__(self, index):
        data = self.data[index]
        labels = self.label[index]
        return data, labels
    # 该函数返回数据大小长度，目的是DataLoader方便划分，如果不知道大小，DataLoader会一脸懵逼
    def __len__(self):
        return len(self.data)

# 随机生成数据，大小为10 * 20列
source_data = np.random.rand(10, 20)
# 随机生成标签，大小为10 * 1列
source_label = np.random.randint(0,2,(10, 1))
# 通过GetLoader将数据进行加载，返回Dataset对象，包含data和labels
torch_data = GetLoader(source_data, source_label)

3.DataLoader

提供对Dataset的操作，操作如下：

torch.utils.data.DataLoader(dataset,batch_size,shuffle,drop_last，num_workers)

参数含义如下：

dataset：加载torch.utils.data.Dataset对象数据
batch_size：每个batch的大小
shuffle：是否对数据进行打乱
drop_last：是否对无法整除的最后一个datasize进行丢弃
num_workers：表示加载的时候子进程数

因此，在实现过程中我们测试如下（紧跟上述用例）：

from torch.utils.data import DataLoader

# 读取数据
datas = DataLoader(torch_data, batch_size=6, shuffle=True, drop_last=False, num_workers=2)

此时，我们的数据已经加载完毕了，只需要在训练过程中使用即可。

4.查看数据

我们可以通过迭代器（enumerate）进行输出数据，测试如下：

for i, data in enumerate(datas):
	# i表示第几个batch， data表示该batch对应的数据，包含data和对应的labels
    print("第 {} 个Batch \n{}".format(i, data))

输出结果如下图：

结果说明：由于数据的是10个，batchsize大小为6，且drop_last=False，因此第一个大小为6，第二个为4。

每一个batch中包含data和对应的labels。

当我们想取出data和对应的labels时候，只需要用下表就可以啦，测试如下：

# 表示输出数据
print(data[0])
# 表示输出标签
print(data[1])

结果如图：

5.总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

pytorch 自定义数据集加载方法

pytorch 官网给出的例子中都是使用了已经定义好的特殊数据集接口来加载数据,而且其使用的数据都是官方给出的数据.如果我们有自己收集的数据集,如何用来训练网络呢?此时需要我们自己定义好数据处理接口.幸运的是pytroch给出了一个数据集接口类(torch.utils.data.Dataset),可以方便我们继承并实现自己的数据集接口. torch.utils.data torch的这个文件包含了一些关于数据集处理的类. class torch.utils.data.Dataset: 一个抽象类
Pytorch关于Dataset 的数据处理

目录 Pytorch系列是了解与使用Pytorch编程来实现卷积神经网络. 学习如何对卷积神经网络编程:首先,需要了解Pytorch对数据的使用(也是在我们模型流程中对数据的预处理部分),其中有两个包Dataset,DataLoader.Dataset是Pytorch对于单个数据的处理类似于给一堆数据进行编号,(在有标签的图像处理中)对其有序地提取图像与标签, 而DataLoader则是一坨一坨的数据进行批次的处理. 此实验运用的数据是北邮邓伟洪老师的人脸表情包的数据集, 当然大家也可以自己手动
Python Pytorch深度学习之数据加载和处理

目录一.下载安装包二.下载数据集三.读取数据集四.编写一个函数看看图像和landmark 五.数据集类六.数据可视化七.数据变换 1.Function_Rescale 2.Function_RandomCrop 3.Function_ToTensor 八.组合转换九.迭代数据集总结一.下载安装包 packages: scikit-image:用于图像测IO和变换 pandas:方便进行csv解析二.下载数据集数据集说明:该数据集(我在这)是imagenet数据集标注为fac
Pytorch如何加载自己的数据集(使用DataLoader读取Dataset)

目录 1.Pytorch加载数据集会用到官方整理好的数据集 2.Dataset 3.DataLoader 4.查看数据 5.总结 1.Pytorch加载数据集会用到官方整理好的数据集很多时候我们需要加载自己的数据集,这时候我们需要使用Dataset和DataLoader Dataset:是被封装进DataLoader里,实现该方法封装自己的数据和标签. DataLoader:被封装入DataLoaderIter里,实现该方法达到数据的划分. 2.Dataset 阅读源码后,我们可以指导,继承该
Pytorch自己加载单通道图片用作数据集训练的实例

pytorch 在torchvision包里面有很多的的打包好的数据集,例如minist,Imagenet-12,CIFAR10 和CIFAR100.在torchvision的dataset包里面,用的时候直接调用就行了.具体的调用格式可以去看文档(目前好像只有英文的).网上也有很多源代码. 不过,当我们想利用自己制作的数据集来训练网络模型时,就要有自己的方法了.pytorch在torchvision.dataset包里面封装过一个函数ImageFolder().这个函数功能很强大,只要你直接将
PyTorch加载自己的数据集实例详解

数据预处理在解决深度学习问题的过程中,往往需要花费大量的时间和精力. 数据处理的质量对训练神经网络来说十分重要,良好的数据处理不仅会加速模型训练, 更会提高模型性能.为解决这一问题,PyTorch提供了几个高效便捷的工具, 以便使用者进行数据处理或增强等操作,同时可通过并行化加速数据加载. 数据集存放大致有以下两种方式: (1)所有数据集放在一个目录下,文件名上附有标签名,数据集存放格式如下: root/cat_dog/cat.01.jpg root/cat_dog/cat.02.jpg ...
pytorch加载自己的数据集源码分享

目录一.标准的数据集流程梳理数据来源二.实现加载自己的数据集 1. 保存在txt文件中(生成训练集和测试集,其实这里的训练集以及测试集也都是用文本文件的形式保存下来的) 2. 在继承dataset类LoadData的三个函数里调用train.txt以及test.txt实现相关功能三.源码一.标准的数据集流程梳理分为几个步骤数据准备以及加载数据库–>数据加载器的调用或者设计–>批量调用进行训练或者其他作用数据来源直接读取了x和y的数据变量,对比后面的就从把对应的路径写进了文本文件
Pytorch 数据加载与数据预处理方式

数据加载分为加载torchvision.datasets中的数据集以及加载自己使用的数据集两种情况. torchvision.datasets中的数据集 torchvision.datasets中自带MNIST,Imagenet-12,CIFAR等数据集,所有的数据集都是torch.utils.data.Dataset的子类,都包含 _ _ len _ (获取数据集长度)和 _ getItem _ _ (获取数据集中每一项)两个子方法. Dataset源码如上,可以看到其中包含了两个没有实现的子
pytorch 数据加载性能对比分析

传统方式需要10s,dat方式需要0.6s import os import time import torch import random from common.coco_dataset import COCODataset def gen_data(batch_size,data_path,target_path): os.makedirs(target_path,exist_ok=True) dataloader = torch.utils.data.DataLoader(COCODat
pytorch 使用加载训练好的模型做inference

前提: 模型参数和结构是分别保存的 1. 构建模型(# load model graph) model = MODEL() 2.加载模型参数(# load model state_dict) model.load_state_dict ( { k.replace('module.',''):v for k,v in torch.load(config.model_path, map_location=config.device).items() } ) model = self.model.to
ECharts异步加载数据与数据集（dataset）

目录异步加载数据数据的动态更新数据集(dataset) 数据到图形的映射视觉通道(颜色.尺寸等)的映射交互联动异步加载数据 ECharts 通常数据设置在 setOption 中,如果我们需要异步加载数据,可以配合 jQuery等工具,在异步获取数据后通过 setOption 填入数据和配置项就行. json 数据: { "data_pie" : [ {"value":235, "name":"视频广告"}, {&
pytorch实现加载保存查看checkpoint文件

目录 1.保存加载checkpoint文件 2.跨gpu和cpu 3.查看checkpoint文件内容 4.常见问题 pytorch保存和加载文件的方法,从断点处继续训练 1.保存加载checkpoint文件 # 方式一:保存加载整个state_dict(推荐) # 保存 torch.save(model.state_dict(), PATH) # 加载 model.load_state_dict(torch.load(PATH)) # 测试时不启用 BatchNormalization 和 D
解决pytorch load huge dataset(大数据加载)

问题最近用pytorch做实验时,遇到加载大量数据的问题.实验数据大小在400Gb,而本身机器的memory只有256Gb,显然无法将数据一次全部load到memory. 解决方法首先自定义一个MyDataset继承torch.utils.data.Dataset,然后将MyDataset的对象feed in torch.utils.data.DataLoader()即可. MyDataset在__init__中声明一个文件对象,然后在__getitem__中缓慢读取数据,这样就不会一次把所