pytorch中的dataset用法详解

2025-04-08 07:46:20

1.torch.utils.data 里面的dataset使用方法

当我们继承了一个 Dataset类之后，我们需要重写 len 方法，该方法提供了dataset的大小； getitem 方法，该方法支持从 0 到 len(self)的索引

from torch.utils.data import Dataset, DataLoader
import torch

class MyDataset(Dataset):
    """
        下载数据、初始化数据，都可以在这里完成
    """

    def __init__(self):
        self.x = torch.linspace(11,20,10)
        self.y = torch.linspace(1,10,10)
        self.len = len(self.x)

    def __getitem__(self, index):
        return self.x[index], self.y[index]

    def __len__(self):
        return self.len

# 实例化这个类，然后我们就得到了Dataset类型的数据，记下来就将这个类传给DataLoader，就可以了。
mydataset = MyDataset()#[return:
#                                # (tensor(x1),tensor(y1));
#                                # (tensor(x2),tensor(y2));
#                                # ......

train_loader2 = DataLoader(dataset=mydataset,
                           batch_size=5,
                           shuffle=False)

for epoch in range(3):  # 训练所有!整套!数据 3 次
    for step,(batch_x,batch_y) in enumerate(train_loader2):  # 每一步 loader 释放一小批数据用来学习
                                #return:
                                        #(tensor(x1,x2,x3,x4,x5),tensor(y1,y2,y3,y4,y5))
                                        #(tensor(x6,x7,x8,x9,x10),tensor(y6,y7,y8,y9,y10))
        # 假设这里就是你训练的地方...

        # 打出来一些数据
        print('Epoch: ', epoch, '| Step:', step, '| batch x: ', batch_x.numpy(), '| batch y: ', batch_y.numpy())

2.torchvision.datasets的使用方法

torchvision中datasets中所有封装的数据集都是torch.utils.data.Dataset的子类，它们都实现了__getitem__和__len__方法。因此，它们都可以用torch.utils.data.DataLoader进行数据加载。

用法1：使用官方数据集

可选数据集参考：https://www.pianshen.com/article/9695297328/

代码：

torchvision.datasets.CIFAR10("./dataset", train=False, transform=torchvision.transforms.ToTensor())

root (string)： 表示数据集的根目录，其中根目录存在CIFAR10/processed/training.pt和CIFAR10/processed/test.pt的子目录
train (bool, optional)： 如果为True，则从training.pt创建数据集，否则从test.pt创建数据集
download (bool, optional)： 如果为True，则从internet下载数据集并将其放入根目录。如果数据集已下载，则不会再次下载
transform (callable, optional)： 接收PIL图片并返回转换后版本图片的转换函数
target_transform (callable, optional)： 接收PIL接收目标并对其进行变换的转换函数

import torchvision

# 准备的测试数据集
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

test_data = torchvision.datasets.CIFAR10("./dataset", train=False, transform=torchvision.transforms.ToTensor())

test_loader = DataLoader(dataset=test_data, batch_size=64, shuffle=True, num_workers=0, drop_last=True)

# 测试数据集中第一张图片及target
img, target = test_data[0]
print(img.shape)
print(target)

writer = SummaryWriter("dataloader")
for epoch in range(2):
    step = 0
    for data in test_loader:
        imgs, targets = data
        # print(imgs.shape)
        # print(targets)
        writer.add_images("Epoch: {}".format(epoch), imgs, step)
        step = step + 1

writer.close()

用法2：ImageFolder通用的自己数据集加载器

一个通用的数据加载器，数据集中的数据以以下方式组织

root/dog/xxx.png
root/dog/xxy.png
root/dog/xxz.png

root/cat/123.png
root/cat/nsdf3.png
root/cat/asd932_.png

torchvision.datasets.ImageFolder(root="root folder path", [transform, target_transform])

ImageFolder有以下成员变量:

self.classes - 用一个list保存类名
self.class_to_idx - 类名对应的索引
self.imgs - 保存(img-path, class) tuple的list

该方法可以结合torch.utils.data.Subset使用，以根据示例索引将您的ImageFolder数据集分为训练和测试。

orig_set = torchvision.datasets.Imagefolder('dataset/')  # your dataset
n = len(orig_set)  # total number of examples
n_test = int(0.1 * n)  # take ~10% for test
test_set = torch.utils.data.Subset(orig_set, range(n_test))  # take first 10%
train_set = torch.utils.data.Subset(orig_set, range(n_test, n))  # take the rest

到此这篇关于pytorch的dataset用法详解的文章就介绍到这了,更多相关pytorch的dataset用法内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Pytorch数据读取之Dataset和DataLoader知识总结

一.前言确保安装 scikit-image numpy 二.Dataset 一个例子: # 导入需要的包 import torch import torch.utils.data.dataset as Dataset import numpy as np # 编造数据 Data = np.asarray([[1, 2], [3, 4],[5, 6], [7, 8]]) Label = np.asarray([[0], [1], [0], [2]]) # 数据[1,2],对应的标签是[0],数据
PyTorch实现重写/改写Dataset并载入Dataloader

前言众所周知,Dataset和Dataloder是pytorch中进行数据载入的部件.必须将数据载入后,再进行深度学习模型的训练.在pytorch的一些案例教学中,常使用torchvision.datasets自带的MNIST.CIFAR-10数据集,一般流程为: # 下载并存放数据集 train_dataset = torchvision.datasets.CIFAR10(root="数据集存放位置",download=True) # load数据 train_loader = t
pytorch Dataset,DataLoader产生自定义的训练数据案例

1. torch.utils.data.Dataset datasets这是一个pytorch定义的dataset的源码集合.下面是一个自定义Datasets的基本框架,初始化放在__init__()中,其中__getitem__()和__len__()两个方法是必须重写的. __getitem__()返回训练数据,如图片和label,而__len__()返回数据长度. class CustomDataset(data.Dataset):#需要继承data.Dataset def __init_
Pytorch自定义Dataset和DataLoader去除不存在和空数据的操作

[源码GitHub地址]:点击进入 1. 问题描述之前写了一篇关于<pytorch Dataset, DataLoader产生自定义的训练数据>的博客,但存在一个问题,我们不能在Dataset做一些数据清理,如果我们传递给Dataset数据,本身存在问题,那么迭代过程肯定出错的. 比如我把很多图片路径都传递给Dataset,如果图片路径都是正确的,且图片都存在也没有损坏,那显然运行是没有问题的: 但倘若传递给Dataset的图片路径有些图片是不存在,这时你通过Dataset读取图片数据,然后
解决pytorch load huge dataset(大数据加载)

问题最近用pytorch做实验时,遇到加载大量数据的问题.实验数据大小在400Gb,而本身机器的memory只有256Gb,显然无法将数据一次全部load到memory. 解决方法首先自定义一个MyDataset继承torch.utils.data.Dataset,然后将MyDataset的对象feed in torch.utils.data.DataLoader()即可. MyDataset在__init__中声明一个文件对象,然后在__getitem__中缓慢读取数据,这样就不会一次把所
Pytorch关于Dataset 的数据处理

目录 Pytorch系列是了解与使用Pytorch编程来实现卷积神经网络. 学习如何对卷积神经网络编程:首先,需要了解Pytorch对数据的使用(也是在我们模型流程中对数据的预处理部分),其中有两个包Dataset,DataLoader.Dataset是Pytorch对于单个数据的处理类似于给一堆数据进行编号,(在有标签的图像处理中)对其有序地提取图像与标签, 而DataLoader则是一坨一坨的数据进行批次的处理. 此实验运用的数据是北邮邓伟洪老师的人脸表情包的数据集, 当然大家也可以自己手动
pytorch中的dataset用法详解

目录 1.torch.utils.data 里面的dataset使用方法 2.torchvision.datasets的使用方法用法1:使用官方数据集用法2:ImageFolder通用的自己数据集加载器 1.torch.utils.data 里面的dataset使用方法当我们继承了一个 Dataset类之后,我们需要重写 len 方法,该方法提供了dataset的大小: getitem 方法, 该方法支持从 0 到 len(self)的索引 from torch.utils.data im
PyTorch中permute的用法详解

permute(dims) 将tensor的维度换位. 参数:参数是一系列的整数,代表原来张量的维度.比如三维就有0,1,2这些dimension. 例: import torch import numpy as np a=np.array([[[1,2,3],[4,5,6]]]) unpermuted=torch.tensor(a) print(unpermuted.size()) # --> torch.Size([1, 2, 3]) permuted=unpermuted.permute(
Pytorch 中retain_graph的用法详解

用法分析在查看SRGAN源码时有如下损失函数,其中设置了retain_graph=True,其作用是什么? ############################ # (1) Update D network: maximize D(x)-1-D(G(z)) ########################### real_img = Variable(target) if torch.cuda.is_available(): real_img = real_img.cuda() z = V
pytorch中index_select()的用法详解

pytorch中index_select()的用法 index_select(input, dim, index) 功能:在指定的维度dim上选取数据,不如选取某些行,列参数介绍第一个参数input是要索引查找的对象第二个参数dim是要查找的维度,因为通常情况下我们使用的都是二维张量,所以可以简单的记忆: 0代表行,1代表列第三个参数index是你要索引的序列,它是一个tensor对象刚开始学习pytorch,遇到了index_select(),一开始不太明白几个参数的意思,后来查了一
pytorch中的自定义数据处理详解

pytorch在数据中采用Dataset的数据保存方式,需要继承data.Dataset类,如果需要自己处理数据的话,需要实现两个基本方法. :.getitem:返回一条数据或者一个样本,obj[index] = obj.getitem(index). :.len:返回样本的数量 . len(obj) = obj.len(). Dataset 在data里,调用的时候使用 from torch.utils import data import os from PIL import Image 数
Pytorch mask_select 函数的用法详解

非常简单的函数,但是官网的介绍令人(令我)迷惑,所以稍加解释. mask_select会将满足mask(掩码.遮罩等等,随便翻译)的指示,将满足条件的点选出来. 根据掩码张量mask中的二元值,取输入张量中的指定项( mask为一个 ByteTensor),将取值返回到一个新的1D张量, 张量 mask须跟input张量有相同数量的元素数目,但形状或维度不需要相同 x = torch.randn(3, 4) x 1.2045 2.4084 0.4001 1.1372 0.5596 1.5677
基于C++中setiosflags()的用法详解

cout<<setiosflags(ios::fixed)<<setiosflags(ios::right)<<setprecision(2); setiosflags 是包含在命名空间iomanip 中的C++ 操作符,该操作符的作用是执行由有参数指定区域内的动作: iso::fixed 是操作符setiosflags 的参数之一,该参数指定的动作是以带小数点的形式表示浮点数,并且在允许的精度范围内尽可能的把数字移向小数点右侧: iso::right 也是se
Angular 中 select指令用法详解

最近在angular中使用select指令时,出现了很多问题,搞得很郁闷.查看了很多资料后,发现select指令并不简单,决定总结一下. select用法: <select ng-model="" [name=""] [required=""] [ng-required=""] [ng-options=""]> </select> 属性说明: 发现并没有ng-change属性 ng-
java 中 ChannelHandler的用法详解

java 中 ChannelHandler的用法详解前言: ChannelHandler处理一个I/O event或者拦截一个I/O操作,在它的ChannelPipeline中将其递交给相邻的下一个handler. 通过继承ChannelHandlerAdapter来代替因为这个接口有许多的方法需要实现,你或许希望通过继承ChannelHandlerAdapter来代替. context对象一个ChannelHandler和一个ChannelHandlerContext对象一起被提供.一个
Java中isAssignableFrom的用法详解

class1.isAssignableFrom(class2) 判定此 Class 对象所表示的类或接口与指定的 Class 参数所表示的类或接口是否相同,或是否是其超类或超接口.如果是则返回 true:否则返回 false.如果该 Class 表示一个基本类型,且指定的 Class 参数正是该 Class 对象,则该方法返回 true:否则返回 false. 1. class2是不是class1的子类或者子接口 2. Object是所有类的父类一个例子搞定: package com.auuz

pytorch中的dataset用法详解

目录

1.torch.utils.data 里面的dataset使用方法

2.torchvision.datasets的使用方法

用法1：使用官方数据集

用法2：ImageFolder通用的自己数据集加载器

相关推荐

随机推荐