PyTorch如何创建自己的数据集

2025-06-20 14:42:42

PyTorch创建自己的数据集

图片文件在同一的文件夹下

思路是继承 torch.utils.data.Dataset，并重点重写其 __getitem__方法，示例代码如下：

class ImageFolder(Dataset):
    def __init__(self, folder_path):
        self.files = sorted(glob.glob('%s/*.*' % folder_path))

    def __getitem__(self, index):
        path = self.files[index % len(self.files)]
        img = np.array(Image.open(path))
        h, w, c = img.shape
        pad = ((40, 40), (4, 4), (0, 0))

        # img = np.pad(img, pad, 'constant', constant_values=0) / 255
        img = np.pad(img, pad, mode='edge') / 255.0
        img = torch.from_numpy(img).float()
        patches = np.reshape(img, (3, 10, 128, 11, 128))
        patches = np.transpose(patches, (0, 1, 3, 2, 4))

        return img, patches, path

    def __len__(self):
        return len(self.files)

图片文件在不同的文件夹下

比如我们有数据如下：

─── data
├── train
│ ├── 0.jpg
│ └── 1.jpg
├── test
│ ├── 0.jpg
│ └── 1.jpg
└── val
├── 1.jpg
└── 2.jpg

此时我们只需要将以上代码稍作修改即可，修改的代码如下：

self.files = sorted(glob.glob('%s/**/*.*' % folder_path, recursive=True))

其他代码不变。

pytorch常用数据集的使用

对于pytorch数据集的使用，示例代码如下：

from torch.utils.tensorboard import SummaryWriter
from torchvision.transforms import Compose
from torchvision import transforms
import torchvision
import ssl

ssl._create_default_https_context = ssl._create_unverified_context

dataset_transform = Compose([transforms.ToTensor()])

# 关于官方数据集的使用还是关键要看pytorch的官方文档
train_set = torchvision.datasets.CIFAR10(root="./CIFAR10",train=True,transform=dataset_transform,download=True)
test_set = torchvision.datasets.CIFAR10(root="./CIFAR10",train=False,transform=dataset_transform,download=True)

# 查看测试数据集中的第一个数据
# print(test_set[0])
# 查看测试数据集中的分类情况
# print(test_set.classes)
#
# 取出第一个数据中的图片（img）和分类结果（target）
# img,target = test_set[0]
# 查看图片数据的类型
# print(img)
# print(target)
# 输出类别
# print(test_set.classes[target])
# 查看图片
# img.show()

# 使用tensorboard显示tensor数据类型的图片
writer = SummaryWriter("logs")
for i in range(10):
	# 取出数据中的图片（img）和分类结果（target）
    img,target = test_set[i]
    writer.add_image("test_set",img,i)

writer.close()

上述代码运行结果在tensorboard可视化：

代码

train_set = torchvision.datasets.CIFAR10(root="./CIFAR10",train=True,transform=dataset_transform,download=True)

常用参数讲解

root:根目录，存放数据集的位置
train:若为True，则划分为训练数据集，若为False，则划分为测试数据集
transform：指定输入数据集处理方式
download:若为True，则会将数据集下载到root指定的目录下，否则不会下载

官方文档对参数的解释：

root (string) – Root directory of dataset where directory cifar-10-batches-py exists or will be saved to if download is set to True.

train (bool, optional) – If True, creates dataset from training set, otherwise creates from test set.

transform (callable, optional) – A function/transform that takes in an PIL image and returns a transformed version. E.g, transforms.RandomCrop

target_transform (callable, optional) – A function/transform that takes in the target and transforms it.

download (bool, optional) – If true, downloads the dataset from the internet and puts it in root directory. If dataset is already downloaded, it is not downloaded again.

注意：

关于官方数据集的使用还是关键要看pytorch的官方文档
下载数据集的细节之处：知道下载链接（下载链接可以在源码中查看）之后可以不用使用代码下载了，使用迅雷来下载可能会更快。
要学会使用Pycharm中的ctrl+p和ctrl+alt这两个快捷键
pytorch官网
pytorch官方数据集（下载数据集方法）

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

pytorch加载自己的图片数据集的2种方法详解

目录 ImageFolder 加载数据集使用pytorch提供的Dataset类创建自己的数据集. Dataset加载数据集总结 pytorch加载图片数据集有两种方法. 1.ImageFolder 适合于分类数据集,并且每一个类别的图片在同一个文件夹, ImageFolder加载的数据集, 训练数据为文件件下的图片, 训练标签是对应的文件夹, 每个文件夹为一个类别导入ImageFolder()包 from torchvision.datasets import ImageFolder 在
使用pytorch读取数据集

目录 pytorch读取数据集第一种第二种第三种 pytorch学习记录注意事项 pytorch读取数据集使用pytorch读取数据集一般有三种情况第一种读取官方给的数据集,例如Imagenet,CIFAR10,MNIST等这些库调用torchvision.datasets.XXXX()即可,例如想要读取MNIST数据集 import torch import torch.nn as nn import torch.utils.data as Data import torchv
Pytorch加载数据集的方式总结及补充

目录前言一.自己重写定义(Dataset.DataLoader) 二.用Pytorch自带的类(ImageFolder.datasets.DataLoader) 2.1 加载自己的数据集 2.1.1 ImageFolder介绍 2.2.2 ImageFolder加载数据集完整例子 2.2 加载常见的数据集三.总结四.transforms变换讲解五.DataLoader的补充总结前言在用Pytorch加载数据集时,看GitHub上的代码经常会用到ImageFolder.DataLo
pytorch加载自己的数据集源码分享

目录一.标准的数据集流程梳理数据来源二.实现加载自己的数据集 1. 保存在txt文件中(生成训练集和测试集,其实这里的训练集以及测试集也都是用文本文件的形式保存下来的) 2. 在继承dataset类LoadData的三个函数里调用train.txt以及test.txt实现相关功能三.源码一.标准的数据集流程梳理分为几个步骤数据准备以及加载数据库–>数据加载器的调用或者设计–>批量调用进行训练或者其他作用数据来源直接读取了x和y的数据变量,对比后面的就从把对应的路径写进了文本文件
PyTorch手写数字数据集进行多分类

目录一.实现过程 0.导包 1.准备数据 2.设计模型 3.构造损失函数和优化器 4.训练和测试二.参考文献一.实现过程本文对经典手写数字数据集进行多分类,损失函数采用交叉熵,激活函数采用ReLU,优化器采用带有动量的mini-batchSGD算法. 所有代码如下: 0.导包 import torch from torchvision import transforms,datasets from torch.utils.data import DataLoader import tor
PyTorch如何创建自己的数据集

目录 PyTorch创建自己的数据集 pytorch常用数据集的使用 PyTorch创建自己的数据集图片文件在同一的文件夹下思路是继承 torch.utils.data.Dataset,并重点重写其 __getitem__方法,示例代码如下: class ImageFolder(Dataset): def __init__(self, folder_path): self.files = sorted(glob.glob('%s/*.*' % folder_path)
pytorch学习教程之自定义数据集

自定义数据集在训练深度学习模型之前,样本集的制作非常重要.在pytorch中,提供了一些接口和类,方便我们定义自己的数据集合,下面完整的试验自定义样本集的整个流程. 开发环境 Ubuntu 18.04 pytorch 1.0 pycharm 实验目的掌握pytorch中数据集相关的API接口和类熟悉数据集制作的整个流程实验过程 1.收集图像样本以简单的猫狗二分类为例,可以在网上下载一些猫狗图片.创建以下目录: data-------------根目录 data/test-------测
聊聊基于pytorch实现Resnet对本地数据集的训练问题

目录 1.dataset.py(先看代码的总体流程再看介绍) 2.network.py 3.train.py 4.结果与总结本文是使用pycharm下的pytorch框架编写一个训练本地数据集的Resnet深度学习模型,其一共有两百行代码左右,分成mian.py.network.py.dataset.py以及train.py文件,功能是对本地的数据集进行分类.本文介绍逻辑是总分形式,即首先对总流程进行一个概括,然后分别介绍每个流程中的实现过程(代码+流程图+文字的介绍). 对于整个项目的流程首
pytorch GAN伪造手写体mnist数据集方式

一,mnist数据集形如上图的数字手写体就是mnist数据集. 二,GAN原理(生成对抗网络) GAN网络一共由两部分组成:一个是伪造器(Generator,简称G),一个是判别器(Discrimniator,简称D) 一开始,G由服从某几个分布(如高斯分布)的噪音组成,生成的图片不断送给D判断是否正确,直到G生成的图片连D都判断以为是真的.D每一轮除了看过G生成的假图片以外,还要见数据集中的真图片,以前者和后者得到的损失函数值为依据更新D网络中的权值.因此G和D都在不停地更新权值.以下图为例
计算pytorch标准化(Normalize)所需要数据集的均值和方差实例

pytorch做标准化利用transforms.Normalize(mean_vals, std_vals),其中常用数据集的均值方差有: if 'coco' in args.dataset: mean_vals = [0.471, 0.448, 0.408] std_vals = [0.234, 0.239, 0.242] elif 'imagenet' in args.dataset: mean_vals = [0.485, 0.456, 0.406] std_vals = [0.229,
pytorch实现建立自己的数据集(以mnist为例)

本文将原始的numpy array数据在pytorch下封装为Dataset类的数据集,为后续深度网络训练提供数据. 加载并保存图像信息首先导入需要的库,定义各种路径. import os import matplotlib from keras.datasets import mnist import numpy as np from torch.utils.data.dataset import Dataset from PIL import Image import scipy.misc
PyTorch加载自己的数据集实例详解

数据预处理在解决深度学习问题的过程中,往往需要花费大量的时间和精力. 数据处理的质量对训练神经网络来说十分重要,良好的数据处理不仅会加速模型训练, 更会提高模型性能.为解决这一问题,PyTorch提供了几个高效便捷的工具, 以便使用者进行数据处理或增强等操作,同时可通过并行化加速数据加载. 数据集存放大致有以下两种方式: (1)所有数据集放在一个目录下,文件名上附有标签名,数据集存放格式如下: root/cat_dog/cat.01.jpg root/cat_dog/cat.02.jpg ...
Anaconda+Pycharm+Pytorch虚拟环境创建(各种包安装保姆级教学)

目录前言 Pycharm使用虚拟环境 1)anaconda安装 2)使用anaconda创建虚拟环境 3)安装pytorch 4)安装其他包 5)Pycharm使用虚拟环境前言相信很多时候大家都会用到虚拟环境,他具有可以让你快速切换不同的python版本,让程序打包的时候轻量化等等优点,之前作为小白第一次接触python的时候,为了配置虚拟环境花了好几天,踩了很多坑,网上很多教程的水平也参差不齐,正好最近帮实习公司做了个学校项目,需要我提供python环境配置的文档,于是我就顺手把教程编辑
Pytorch中使用ImageFolder读取数据集时忽略特定文件

目录一.使用ImageFolder读取数据集时忽略特定文件二.ImageFolder只读取部分类别文件夹一.使用ImageFolder读取数据集时忽略特定文件如果事先知道需要忽略哪些文件,当然直接从数据集里删除就行了.但如果需要在程序运行时动态确认,或者筛选规则比较复杂,人工不好做,就需要让ImageFolder在读取时使用自定义的筛选规则. ImageFolder有一个可选参数为is_valid_file,参数类型为可调用的函数,该函数传入一个str参数,返回一个bool值.当返回值为

PyTorch如何创建自己的数据集

目录

PyTorch创建自己的数据集

pytorch常用数据集的使用

相关推荐

随机推荐