pytorch::Dataloader中的迭代器和生成器应用详解

2025-03-31 20:16:11

在使用pytorch训练模型，经常需要加载大量图片数据，因此pytorch提供了好用的数据加载工具Dataloader。

为了实现小批量循环读取大型数据集，在Dataloader类具体实现中，使用了迭代器和生成器。

这一应用场景正是python中迭代器模式的意义所在，因此本文对Dataloader中代码进行解读，可以更好的理解python中迭代器和生成器的概念。

本文的内容主要有：

解释python中的迭代器和生成器概念
解读pytorch中Dataloader代码，如何使用迭代器和生成器实现数据加载

python迭代基础

python中围绕着迭代有以下概念：

可迭代对象 iterables
迭代器 iterator
生成器 generator

这三个概念互相关联，并不是孤立的。在可迭代对象的基础上发展了迭代器，在迭代器的基础上又发展了生成器。

学习这些概念的名词解释没有多大意义。编程中很多的抽象概念都是为了更好的实现某些功能，才去人为创造的协议和模式。

因此，要理解它们，需要探究概念背后的逻辑，为什么这样设计？要解决的真正问题是什么？在哪些场景下应用是最好的？

迭代模式首先要解决的基础问题是，需要按一定顺序获取集合内部数据，比如循环某个list。

当数据很小时，不会有问题。但当读取大量数据时，一次性读取会超出内存限制，因此想出以下方法：

把大的数据分成几个小块，分批处理
惰性的取值方式，按需取值

循环读数据可分为下面三种应用场景，对应着容器（可迭代对象），迭代器和生成器：

for x in container: 为了遍历python内部序列容器（如list）, 这些类型内部实现了__getitem__() 方法，可以从0开始按顺序遍历序列容器中的元素。
for x in iterator: 为了循环用户自定义的迭代器，需要实现__iter__和__next__方法，__iter__是迭代协议，具体每次迭代的执行逻辑在 __next__或next方法里
for x in generator: 为了节省循环的内存和加速，使用生成器来实现惰性加载，在迭代器的基础上加入了yield语句，最简单的例子是 range(5)

代码示例:

# 普通循环 for x in list
numbers = [1, 2, 3,]
for n in numbers:
  print(n) # 1,2,3

# for循环实际干的事情
# iter输入一个可迭代对象list，返回迭代器
# next方法取数据
my_iterator = iter(numbers)
next(my_iterator) # 1
next(my_iterator) # 2
next(my_iterator) # 3
next(my_iterator) # StopIteration exception

# 迭代器循环 for x in iterator
for i,n in enumerate(numbers):
  print(i,n) # 0,1 / 1,3 / 2,3

# 生成器循环 for x in generator
for i in range(3):
  print(i) # 0,1,2

上面示例代码中python内置函数iter和next的用法：

iter函数，调用__iter__，返回一个迭代器
next函数，输入迭代器，调用__next__，取出数据

比较容易混淆的是__iter__和__next__两个方法。它们的区别是：

__iter__是为了可以迭代，真正执行取数据的逻辑是__next__方法实现的，实际调用是通过next(iterator)完成
__iter__可以返回自身（return self），实际读取数据的实现放在__next__方法
__iter__可以和yield搭配，返回生成器对象

__iter__返回自身的做法有点类似 python中的类型系统。为了保持一致性，python中一切皆对象。

每个对象创建后，都有类型指针，而类型对象的指针指向元对象，元对象的指针指向自身。

生成器，是在__iter__方法中加入yield语句，好处有：

减少循环判断逻辑的复杂度
惰性取值，节省内存和时间

yield作用：

代替函数中的return语句
记住上一次循环迭代器内部元素的位置

三种循环模式常用函数

for x in container 方法:

list, deque, …
set, frozensets, …
dict, defaultdict, OrderedDict, Counter, …
tuple, namedtuple, …
str

for x in iterator 方法:

enumerate() # 加上list的index
sorted() # 排序list
reversed() # 倒序list
zip() # 合并list

for x in generator 方法：

range()
map()
filter()
reduce()
[x for x in list(...)]

Dataloder源码分析

pytorch采用 for x in iterator 模式，从Dataloader类中读取数据。

为了实现该迭代模式，在Dataloader内部实现__iter__方法，实际返回的是_DataLoaderIter类。
_DataLoaderIter类里面，实现了 __iter__方法，返回自身，具体执行读数据的逻辑，在__next__方法中。

以下代码只截取了单线程下的数据读取。

class DataLoader(object):
  r"""
  Data loader. Combines a dataset and a sampler, and provides
  single- or multi-process iterators over the dataset.
  """
  def __init__(self, dataset, batch_size=1, shuffle=False, ...):
    self.dataset = dataset
    self.batch_sampler = batch_sampler
    ...

  def __iter__(self):
    return _DataLoaderIter(self)

  def __len__(self):
    return len(self.batch_sampler)

class _DataLoaderIter(object):
  r"""Iterates once over the DataLoader's dataset, as specified by the sampler"""
  def __init__(self, loader):
    self.sample_iter = iter(self.batch_sampler)
    ...

  def __next__(self):
    if self.num_workers == 0: # same-process loading
      indices = next(self.sample_iter) # may raise StopIteration
      batch = self.collate_fn([self.dataset[i] for i in indices])
      if self.pin_memory:
        batch = pin_memory_batch(batch)
      return batch
    ...

  def __iter__(self):
    return self

Dataloader类中读取数据Index的方法，采用了 for x in generator 方式，但是调用采用iter和next函数

构建随机采样类RandomSampler，内部实现了 __iter__方法
__iter__方法内部使用了 yield，循环遍历数据集，当数量达到batch_size大小时，就返回
实例化随机采样类，传入iter函数，返回一个迭代器
next会调用随机采样类中生成器，返回相应的index数据

class RandomSampler(object):
  """random sampler to yield a mini-batch of indices."""
  def __init__(self, batch_size, dataset, drop_last=False):
    self.dataset = dataset
    self.batch_size = batch_size
    self.num_imgs = len(dataset)
    self.drop_last = drop_last

  def __iter__(self):
    indices = np.random.permutation(self.num_imgs)
    batch = []
    for i in indices:
      batch.append(i)
      if len(batch) == self.batch_size:
        yield batch
        batch = []
    ## if images not to yield a batch
    if len(batch)>0 and not self.drop_last:
      yield batch

  def __len__(self):
    if self.drop_last:
      return self.num_imgs // self.batch_size
    else:
      return (self.num_imgs + self.batch_size - 1) // self.batch_size

batch_sampler = RandomSampler(batch_size. dataset)
sample_iter = iter(batch_sampler)
indices = next(sample_iter)

总结

本文总结了python中循环的三种模式：

for x in container 可迭代对象
for x in iterator 迭代器
for x in generator 生成器

pytorch中的数据加载模块 Dataloader，使用生成器来返回数据的索引，使用迭代器来返回需要的张量数据，可以在大量数据情况下，实现小批量循环迭代式的读取，避免了内存不足问题。

参考文章

迭代器和生成器
 流畅的Python-第14章：可迭代的对象、迭代器和生成器
 pytorch-dataloader源码

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

pytorch中如何使用DataLoader对数据集进行批处理的方法

最近搞了搞minist手写数据集的神经网络搭建,一个数据集里面很多个数据,不能一次喂入,所以需要分成一小块一小块喂入搭建好的网络. pytorch中有很方便的dataloader函数来方便我们进行批处理,做了简单的例子,过程很简单,就像把大象装进冰箱里一共需要几步? 第一步:打开冰箱门. 我们要创建torch能够识别的数据集类型(pytorch中也有很多现成的数据集类型,以后再说). 首先我们建立两个向量X和Y,一个作为输入的数据,一个作为正确的结果: 随后我们需要把X和Y组成一个完整的数据集,
pytorch::Dataloader中的迭代器和生成器应用详解

在使用pytorch训练模型,经常需要加载大量图片数据,因此pytorch提供了好用的数据加载工具Dataloader. 为了实现小批量循环读取大型数据集,在Dataloader类具体实现中,使用了迭代器和生成器. 这一应用场景正是python中迭代器模式的意义所在,因此本文对Dataloader中代码进行解读,可以更好的理解python中迭代器和生成器的概念. 本文的内容主要有: 解释python中的迭代器和生成器概念解读pytorch中Dataloader代码,如何使用迭代器和生成器实现数
Python 中迭代器与生成器实例详解

Python 中迭代器与生成器实例详解本文通过针对不同应用场景及其解决方案的方式,总结了Python中迭代器与生成器的一些相关知识,具体如下: 1.手动遍历迭代器应用场景:想遍历一个可迭代对象中的所有元素,但是不想用for循环解决方案:使用next()函数,并捕获StopIteration异常 def manual_iter(): with open('/etc/passwd') as f: try: while True: line=next(f) if line is None: br
Python 迭代器与生成器实例详解

Python 迭代器与生成器实例详解一.如何实现可迭代对象和迭代器对象 1.由可迭代对象得到迭代器对象例如l就是可迭代对象,iter(l)是迭代器对象 In [1]: l = [1,2,3,4] In [2]: l.__iter__ Out[2]: <method-wrapper '__iter__' of list object at 0x000000000426C7C8> In [3]: t = iter(l) In [4]: t.next() Out[4]: 1 In [5]: t.
python的迭代器与生成器实例详解

本文以实例详解了python的迭代器与生成器,具体如下所示: 1. 迭代器概述: 迭代器是访问集合元素的一种方式.迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束.迭代器只能往前不会后退,不过这也没什么,因为人们很少在迭代途中往后退. 1.1 使用迭代器的优点对于原生支持随机访问的数据结构(如tuple.list),迭代器和经典for循环的索引访问相比并无优势,反而丢失了索引值(可以使用内建函数enumerate()找回这个索引值).但对于无法随机访问的数据结构(比
Python通过for循环理解迭代器和生成器实例详解

本文实例讲述了Python通过for循环理解迭代器和生成器.分享给大家供大家参考,具体如下: 迭代器可迭代对象通过 for-in- 循环依次拿到数据进行使用的过程称为遍历,也叫迭代.我们把可以通过 for-in- 语句迭代读取数据的对象称之为可迭代对象. - 通过 isinstance()可以判断一个对象是否可以迭代 # 判断列表 print(isinstance([], Iterable) 打印结果为 True 即为可迭代对象. - 自定义一个能容纳数据的类,测试该类的可迭代性 impor
pytorch DataLoader的num_workers参数与设置大小详解

Q:在给Dataloader设置worker数量(num_worker)时,到底设置多少合适?这个worker到底怎么工作的? train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=4) 参数详解: 1.每次dataloader加载数据时:dataloader一次性创建num_worker个worker,(也可以说dataloader一次
JavaScript中的迭代器和生成器详解

处理集合里的每一项是一个非常普通的操作,JavaScript提供了许多方法来迭代一个集合,从简单的for和for each循环到 map(),filter() 和 array comprehensions(数组推导式).在JavaScript 1.7中,迭代器和生成器在JavaScript核心语法中带来了新的迭代机制,而且还提供了定制 for-in 和 for each 循环行为的机制. 迭代器迭代器是一个每次访问集合序列中一个元素的对象,并跟踪该序列中迭代的当前位置.在JavaScript中
详解Python3中的迭代器和生成器及其区别

介绍本篇将介绍Python3中的迭代器与生成器,描述可迭代与迭代器关系,并实现自定义类的迭代器模式. 迭代的概念上一次输出的结果为下一次输入的初始值,重复的过程称为迭代,每次重复即一次迭代,并且每次迭代的结果是下一次迭代的初始值注:循环不是迭代 while True: #只满足重复,因而不是迭代 print('====>') 迭代器 1.为什么要有迭代器? 对于没有索引的数据类型,必须提供一种不依赖索引的迭代方式. 2.迭代器定义: 迭代器:可迭代对象执行__iter__方法,得到的结果
python 协程中的迭代器，生成器原理及应用实例详解

本文实例讲述了python 协程中的迭代器,生成器原理及应用.分享给大家供大家参考,具体如下: 1.迭代器理解迭代器: 迭代器是访问可迭代对象的工具迭代器是指用iter(obj)函数返回的对象(实例) 迭代器是指用next(it)函数获取可迭代对象的数据迭代器函数(iter和next) iter(iterable)从可迭代对象中返回一个迭代器,iterable必须是能提供一个迭代器的对象 next(iterator) 从迭代器iterator中获取下一了记录,如果无法获取下一条记录,则触发
一文搞懂python 中的迭代器和生成器

可迭代对象和迭代器迭代(iterate)意味着重复,就像 for 循环迭代序列和字典那样,但实际上也可使用 for 循环迭代其他对象:实现了方法 __iter__ 的对象(迭代器协议的基础).__iter__方法返回一个迭代器,它是包含方法 __next__ 的对象,调用时可不提供任何参数:当你调用 __next__ 时,迭代器应返回其下一个值:如果没有可供返回的值,应引发 StopIteration 异常:也可使用内置函数 next(),此种情况下,next(it) 与 it.__next(

pytorch::Dataloader中的迭代器和生成器应用详解

相关推荐

随机推荐