pytorch中dataloader 的sampler 参数详解

2025-03-31 16:18:57

1. dataloader() 初始化函数

 def __init__(self, dataset, batch_size=1, shuffle=False, sampler=None,
 batch_sampler=None, num_workers=0, collate_fn=None,
pin_memory=False, drop_last=False, timeout=0,
                 worker_init_fn=None, multiprocessing_context=None):

其中几个常用的参数：

dataset 数据集，map-style and iterable-style 可以用index取值的对象、
batch_size 大小
shuffle 取batch是否随机取，默认为False
sampler 定义取batch的方法，是一个迭代器，每次生成一个key 用于读取dataset中的值
batch_sampler 也是一个迭代器，每次生次一个batch_size的key
num_workers 参与工作的线程数collate_fn 对取出的batch进行处理
drop_last 对最后不足batchsize的数据的处理方法

下面看两段取自DataLoader中的__init__代码，帮助我们理解几个常用参数之间的关系

2. shuffle 与sample　之间的关系

当我们sampler有输入时，shuffle的值就没有意义，

	if sampler is None:  # give default samplers
	    if self._dataset_kind == _DatasetKind.Iterable:
	        # See NOTE [ Custom Samplers and IterableDataset ]
	        sampler = _InfiniteConstantSampler()
	    else:  # map-style
	        if shuffle:
	            sampler = RandomSampler(dataset)
	        else:
	            sampler = SequentialSampler(dataset)

当dataset类型是map style时， shuffle其实就是改变sampler的取值

shuffle为默认值 False时，sampler是SequentialSampler，就是按顺序取样,
shuffle为True时，sampler是RandomSampler，就是按随机取样

3. sample 的定义方法

3.1 sampler 参数的使用

sampler 是用来定义取batch方法的一个函数或者类，返回的是一个迭代器。

我们可以看下自带的RandomSampler类中最重要的iter函数

    def __iter__(self):
        n = len(self.data_source)
        # dataset的长度， 按顺序索引
        if self.replacement：# 对应的replace参数
            return iter(torch.randint(high=n, size=(self.num_samples,), dtype=torch.int64).tolist())
        return iter(torch.randperm(n).tolist())

可以看出，其实就是生成索引，然后随机的取值，然后再迭代。

其实还有一些细节需要注意理解：

比如__len__函数，包括DataLoader的len和sample的len，两者区别，这部分代码比较简单，可以自行阅读，其实参考着RandomSampler写也不会出现问题。
比如，迭代器和生成器的使用，以及区别

    if batch_size is not None and batch_sampler is None:
        # auto_collation without custom batch_sampler
        batch_sampler = BatchSampler(sampler, batch_size, drop_last)

    self.sampler = sampler
    self.batch_sampler = batch_sampler

BatchSampler的生成过程：

# 略去类的初始化
    def __iter__(self):
        batch = []
        for idx in self.sampler:
            batch.append(idx)
            if len(batch) == self.batch_size:
                yield batch
                batch = []
        if len(batch) > 0 and not self.drop_last:
            yield batch

就是按batch_size从sampler中读取索引，并形成生成器返回。

以上可以看出, batch_sampler和sampler， batch_size， drop_last之间的关系

如果batch_sampler没有定义的话且batch_size有定义，会根据sampler, batch_size, drop_last生成一个batch_sampler
自带的注释中对batch_sampler有一句话： Mutually exclusive with :attr:batch_size :attr:shuffle, :attr:sampler, and :attr:drop_last.
意思就是b
atch_sampler 与这些参数冲突 ,即如果你定义了batch_sampler, 其他参数都不需要有

4. batch 生成过程

每个batch都是由迭代器产生的：

# DataLoader中iter的部分
    def __iter__(self):
        if self.num_workers == 0:
            return _SingleProcessDataLoaderIter(self)
        else:
            return _MultiProcessingDataLoaderIter(self)

# 再看调用的另一个类
class _SingleProcessDataLoaderIter(_BaseDataLoaderIter):
    def __init__(self, loader):
        super(_SingleProcessDataLoaderIter, self).__init__(loader)
        assert self._timeout == 0
        assert self._num_workers == 0

        self._dataset_fetcher = _DatasetKind.create_fetcher(
            self._dataset_kind, self._dataset, self._auto_collation, self._collate_fn, self._drop_last)

    def __next__(self):
        index = self._next_index()
        data = self._dataset_fetcher.fetch(index)
        if self._pin_memory:
            data = _utils.pin_memory.pin_memory(data)
        return data

到此这篇关于pytorch中dataloader 的sampler 参数详解的文章就介绍到这了,更多相关pytorch sampler 内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

AMP Tensor Cores节省内存PyTorch模型详解

目录导读什么是Tensor Cores? 那么,我们如何使用Tensor Cores? 使用PyTorch进行混合精度训练: 基准测试导读只需要添加几行代码,就可以得到更快速,更省显存的PyTorch模型. 你知道吗,在1986年Geoffrey Hinton就在Nature论文中给出了反向传播算法? 此外,卷积网络最早是由Yann le cun在1998年提出的,用于数字分类,他使用了一个卷积层.但是直到2012年晚些时候,Alexnet才通过使用多个卷积层来实现最先进的imagene
pytorch tensor内所有元素相乘实例

目录 tensor内所有元素相乘 tensor乘法运算汇总与解析元素一一相乘向量点乘矩阵乘法 vector 与 matrix 相乘 matrix 与 vector 相乘带有batch_size 的 broad cast乘法 tensor内所有元素相乘 a = torch.Tensor([1,2,3]) print(torch.prod(a)) 输出 tensor(6.) tensor乘法运算汇总与解析元素一一相乘该操作又称作 “哈达玛积”, 简单来说就是 tensor 元素逐个相乘.
pytorch中Tensor.to(device)和model.to(device)的区别及说明

目录 Tensor.to(device)和model.to(device)的区别区别所在举例 pytorch学习笔记--to(device)用法这段代码到底有什么用呢? 为什么要在GPU上做运算呢? .cuda()和.to(device)的效果一样吗?为什么后者更好? 如果你有多个GPU Tensor.to(device)和model.to(device)的区别区别所在使用GPU训练的时候,需要将Module对象和Tensor类型的数据送入到device.通常会使用 to.(devic
pytorch 如何使用amp进行混合精度训练

简介 AMP:Automatic mixed precision,自动混合精度,可以在神经网络推理过程中,针对不同的层,采用不同的数据精度进行计算,从而实现节省显存和加快速度的目的. 在Pytorch 1.5版本及以前,通过NVIDIA提供的apex库可以实现amp功能.但是在使用过程中会伴随着一些版本兼容和奇怪的报错问题. 从1.6版本开始,Pytorch原生支持自动混合精度训练,并已进入稳定阶段,AMP 训练能在 Tensor Core GPU 上实现更高的性能并节省多达 50% 的内存.
pytorch随机采样操作SubsetRandomSampler()

这篇文章记录一个采样器都随机地从原始的数据集中抽样数据.抽样数据采用permutation. 生成任意一个下标重排,从而利用下标来提取dataset中的数据的方法需要的库 import torch 使用方法这里以MNIST举例 train_dataset = dsets.MNIST(root='./data', #文件存放路径 train=True, #提取训练集 transform=transforms.ToTensor(), #将图像转化为Tensor download=True) sa
pytorch tensor计算三通道均值方式

目录 tensor计算三通道均值第一种思路 Pytorch tensor的运算 tensor操作 tensor计算三通道均值今天用pytorch处理图像时,涉及到了计算均值的问题,整理一下解决思路. 第一种思路 tensor转换为numpy再进行处理 import torch import cv2 img = cv2.imread("image path") tensor_img = torch.from_numpy((img[:, :, ::-1] / 255.0)[None,
pytorch中dataloader 的sampler 参数详解

目录 1. dataloader() 初始化函数 2. shuffle 与sample 之间的关系 3. sample 的定义方法 3.1 sampler 参数的使用 4. batch 生成过程 1. dataloader() 初始化函数 def __init__(self, dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_mem
PyTorch中反卷积的用法详解

pytorch中的 2D 卷积层和 2D 反卷积层函数分别如下: class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, groups=1, bias=True) class torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, b
Pytorch中膨胀卷积的用法详解

卷积和膨胀卷积在深度学习中,我们会碰到卷积的概念,我们知道卷积简单来理解就是累乘和累加,普通的卷积我们在此不做赘述,大家可以翻看相关书籍很好的理解. 最近在做项目过程中,碰到Pytorch中使用膨胀卷积的情况,想要的输入输出是图像经过四层膨胀卷积后图像的宽高尺寸不发生变化. 开始我的思路是padding='SAME'结合strides=1来实现输入输出尺寸不变,试列好多次还是有问题,报了张量错误的提示,想了好久也没找到解决方法,上网搜了下,有些人的博客说经过膨胀卷积之后图像的尺寸不发生变化,有
PyTorch中torch.nn.Linear实例详解

目录前言 1. nn.Linear的原理: 2. nn.Linear的使用: 3. nn.Linear的源码定义: 补充:许多细节需要声明总结前言在学习transformer时,遇到过非常频繁的nn.Linear()函数,这里对nn.Linear进行一个详解.参考:https://pytorch.org/docs/stable/_modules/torch/nn/modules/linear.html 1. nn.Linear的原理: 从名称就可以看出来,nn.Linear表示的是线性变
linux 中的ls命令参数详解及ls命令的使用实例

一.ls命令参数详解可以通过阅读 ls 的说明书页(man ls)来获得选项的完整列表. -a – 全部(all).列举目录中的全部文件,包括隐藏文件(.filename).位于这个列表的起首处的 .. 和 . 依次是指父目录和你的当前目录. -l – 长(long).列举目录内容的细节,包括权限(模式).所有者.组群.大小.创建日期.文件是否是到系统其它地方的链接,以及链接的指向. -F – 文件类型(File type).在每一个列举项目之后添加一个符号.这些符号包括:/ 表明是一个目录:
对pytorch中的梯度更新方法详解

背景使用pytorch时,有一个yolov3的bug,我认为涉及到学习率的调整.收集到tencent yolov3和mxnet开源的yolov3,两个优化器中的学习率设置不一样,而且使用GPU数目和batch的更新也不太一样.据此,我简单的了解了下pytorch的权重梯度的更新策略,看看能否一窥究竟. 对代码说明共三个实验,分布写在代码中的(一)(二)(三)三个地方.运行实验时注释掉其他两个实验及其结果实验(三): 不使用zero_grad()时,grad累加在一起,官网是使用accum
pytorch中nn.Conv1d的用法详解

先粘贴一段official guide:nn.conv1d官方我一开始被in_channels.out_channels卡住了很久,结果发现就和conv2d是一毛一样的.话不多说,先粘代码(菜鸡的自我修养) class CNN1d(nn.Module): def __init__(self): super(CNN1d,self).__init__() self.layer1 = nn.Sequential( nn.Conv1d(1,100,2), nn.BatchNorm1d(100), nn
pytorch中的transforms模块实例详解

pytorch中的transforms模块中包含了很多种对图像数据进行变换的函数,这些都是在我们进行图像数据读入步骤中必不可少的,下面我们讲解几种最常用的函数,详细的内容还请参考pytorch官方文档(放在文末). data_transforms = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms
PyTorch中topk函数的用法详解

听名字就知道这个函数是用来求tensor中某个dim的前k大或者前k小的值以及对应的index. 用法 torch.topk(input, k, dim=None, largest=True, sorted=True, out=None) -> (Tensor, LongTensor) input:一个tensor数据 k:指明是得到前k个数据以及其index dim: 指定在哪个维度上排序, 默认是最后一个维度 largest:如果为True,按照大到小排序: 如果为False,按照小到大排序
Python中np.random.randint()参数详解及用法实例

目录可实现功能: np.random.randint() 根据参数中所指定的范围生成随机整数. 参数一.基础用法二.高级用法总结可实现功能: 1.随机生成一个整数. 2.随机生成任意范围内的一个整数. 3.随机生成指定长度的整数组 4.随机生成指定长度的任意范围的整数组 5.随机生成指定长度的多维整数组 6.随机生成指定长度的任意范围的多维整数组 np.random.randint() 根据参数中所指定的范围生成随机整数. numpy.random.randint(low, hig

pytorch中dataloader 的sampler 参数详解

目录

1. dataloader() 初始化函数

2. shuffle 与sample 之间的关系

3. sample 的定义方法

3.1 sampler 参数的使用

4. batch 生成过程

相关推荐

随机推荐

2. shuffle 与sample　之间的关系