PyTorch训练LSTM时loss.backward()报错的解决方案

2025-07-01 22:04:41

训练用PyTorch编写的LSTM或RNN时，在loss.backward()上报错：

RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.

千万别改成loss.backward(retain_graph=True)，会导致显卡内存随着训练一直增加直到OOM：

RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 10.73 GiB total capacity; 9.79 GiB already allocated; 13.62 MiB free; 162.76 MiB cached)

正确做法：

LSRM / RNN模块初始化时定义好hidden，每次forward都要加上self.hidden = self.init_hidden():
Class LSTMClassifier(nn.Module):
    def __init__(self, embedding_dim, hidden_dim)：
    # 此次省略其它代码
    self.rnn_cell = nn.LSTM(embedding_dim, hidden_dim)
    self.hidden = self.init_hidden()
    # 此次省略其它代码

    def init_hidden(self):
        # 开始时刻, 没有隐状态
        # 关于维度设置的详情,请参考 Pytorch 文档
        # 各个维度的含义是 (Seguence, minibatch_size, hidden_dim)
        return (torch.zeros(1, 1, self.hidden_dim),
                torch.zeros(1, 1, self.hidden_dim))
    def forward(self, x):
        # 此次省略其它代码
        self.hidden = self.init_hidden()  # 就是加上这句!!!!
        out, self.hidden = self.rnn_cell(x, self.hidden)
        # 此次省略其它代码
        return out

或者其它模块每次调用这个模块时，其它模块的forward()都对这个LSTM模块init_hidden()一下。

如定义一个模型LSTM_Model()：

Class LSTM_Model(nn.Module):
    def __init__(self, embedding_dim, hidden_dim)：
        # 此次省略其它代码
        self.rnn = LSTMClassifier(embedding_dim, hidden_dim)
        # 此次省略其它代码

    def forward(self, x):
        # 此次省略其它代码
        self.rnn.hidden = self.rnn.init_hidden()  # 就是加上这句!!!!
        out = self.rnn(x)
        # 此次省略其它代码
        return out

这是因为：

根据官方tutorial，在 loss 反向传播的时候，pytorch 试图把 hidden state 也反向传播，但是在新的一轮 batch 的时候 hidden state 已经被内存释放了，所以需要每个 batch 重新 init （clean out hidden state），或者 detach，从而切断反向传播。

补充：pytorch:在执行loss.backward()时out of memory报错

在自己编写SurfNet网络的过程中，出现了这个问题，查阅资料后，将得到的解决方法汇总如下

可试用的方法：

1、reduce batch size, all the way down to 1

2、remove everything to CPU leaving only the network on the GPU

3、remove validation code, and only executing the training code

4、reduce the size of the network (I reduced it significantly: details below)

5、I tried scaling the magnitude of the loss that is backpropagating as well to a much smaller value

在训练时，在每一个step后面加上：

torch.cuda.empty_cache()

在每一个验证时的step之后加上代码：

with torch.no_grad()

不要在循环训练中累积历史记录

total_loss = 0
for i in range(10000):
    optimizer.zero_grad()
    output = model(input)
    loss = criterion(output)
    loss.backward()
    optimizer.step()
    total_loss += loss

total_loss在循环中进行了累计，因为loss是一个具有autograd历史的可微变量。你可以通过编写total_loss += float(loss)来解决这个问题。

本人遇到这个问题的原因是，自己构建的模型输入到全连接层中的特征图拉伸为1维向量时太大导致的，加入pool层或者其他方法将最后的卷积层输出的特征图尺寸减小即可。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

Pytorch中accuracy和loss的计算知识点总结

这几天关于accuracy和loss的计算有一些疑惑,原来是自己还没有弄清楚. 给出实例 def train(train_loader, model, criteon, optimizer, epoch): train_loss = 0 train_acc = 0 num_correct= 0 for step, (x,y) in enumerate(train_loader): # x: [b, 3, 224, 224], y: [b] x, y = x.to(device), y.to(de
解决Pytorch训练过程中loss不下降的问题

在使用Pytorch进行神经网络训练时,有时会遇到训练学习率不下降的问题.出现这种问题的可能原因有很多,包括学习率过小,数据没有进行Normalization等.不过除了这些常规的原因,还有一种难以发现的原因:在计算loss时数据维数不匹配. 下面是我的代码: loss_function = torch.nn.MSE_loss() optimizer.zero_grad() output = model(x_train) loss = loss_function(output, y_train)
pytorch loss反向传播出错的解决方案

今天在使用pytorch进行训练,在运行 loss.backward() 误差反向传播时出错 : RuntimeError: grad can be implicitly created only for scalar outputs File "train.py", line 143, in train loss.backward() File "/usr/local/lib/python3.6/dist-packages/torch/tensor.py", li
关于pytorch中网络loss传播和参数更新的理解

相比于2018年,在ICLR2019提交论文中,提及不同框架的论文数量发生了极大变化,网友发现,提及tensorflow的论文数量从2018年的228篇略微提升到了266篇,keras从42提升到56,但是pytorch的数量从87篇提升到了252篇. TensorFlow: 228--->266 Keras: 42--->56 Pytorch: 87--->252 在使用pytorch中,自己有一些思考,如下: 1. loss计算和反向传播 import torch.nn as nn
PyTorch训练LSTM时loss.backward()报错的解决方案

训练用PyTorch编写的LSTM或RNN时,在loss.backward()上报错: RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time. 千万别改成loss.backward(retain_graph=Tru
SpringBoot高版本修改为低版本时测试类报错的解决方案

目录高版本改低版本时测试类报错比如在创建项目时默认的版本为2.2.2版本然后我们修改为1.5.10的低版本此时可以做如下修改 1.删除高版本默认导入的org.junit.jupiter.api.Test类 2.在类上添加注释@RunWith(SpringRunner.class) 3.将测试类和测试方法都修改为public 4.最后修改的测试类如下所示高版本改低版本时测试类报错有时在使用idea通过Spring Initailizr创建项目时,默认只能创建最近的版本的SpringBo
解决vue v-for 遍历循环时key值报错的问题

一 .问题如下: [Vue warn] Avoid using non-primitive value as key, use string/number value instead. non-primitive表示的是对象这里的[Vue warn]是指不要用对象或是数组作为key,用string或number作为key. :key相当于是索引的作用,提高循环性能,如果循环量较小,不写也可以的. 以上这篇解决vue v-for 遍历循环时key值报错的问题就是小编分享给大家的全部内容了,希望能
解决安装python库时windows error5 报错的问题

python安装库时,有时候会报错windows error 5,可以尝试关闭所有使用python的编辑器.文件等,然后重新pip安装,如果还是不行,可以将报错最下层文件删除即可(如果不放心可以将该文件先备份),记录之~ windows error错误代码: windows error错误代码: 0操作成功完成. 1功能错误. 2系统找不到指定的文件. 3系统找不到指定的路径. 4系统无法打开文件. 5拒绝访问. 6句柄无效. 7存储控制块被损坏. 8存储空间不足,无法处理此命令. 9存储控制块
gem install redis报错的解决方案

在使用ruby脚本安装Redis集群时,需要先安装Ruby语言环境和redis插件,但是安装redis插件时遇到以下报错,下面记录一下解决过程. 因为执行Ruby脚本需要Ruby语言环境,所以首先安装Ruby语言环境和Ruby的包管理器Gems. 然后使用gem安装Redis和Ruby的接口. RubyGems 是 Ruby 的一个包管理器,它提供一个分发 Ruby 程序和库的标准格式,还提供一个管理程序包安装的工具. RubyGems 旨在方便地管理 gem 安装的工具,以及用于分发 gem
Django migrate报错的解决方案

前言在讲解如何解决migrate报错原因前,我们先要了解migrate做了什么事情,migrate:将新生成的迁移脚本.映射到数据库中.创建新的表或者修改表的结构. 问题1:migrate怎么判断哪些迁移脚本需要执行? 它会将代码中的迁移脚本和数据库中django_migrations中的迁移脚本进行对比,如果发现数据库中,没有这个迁移脚本,那么就会执行这个迁移脚本. 问题2:migrate做了什么事情将相关的迁移脚本翻译成SQL语句,在数据库中执行这个SQL语句. 如果这个SQL语句执行没
SpringBoot集成MybatisPlus报错的解决方案

这篇文章主要介绍了SpringBoot集成MybatisPlus报错的解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下问题启动的时候总是报如下错误: java.lang.annotation.AnnotationFormatError: Invalid default: public abstract java.lang.Class 解决方案需要一个mybatis-spring-boot-starter的包,在pom文件加上之后,完
mybatis不加@Parm注解报错的解决方案

我的idea版本2017.3.4,低版本貌似不会加上这个配置,idea高版本会补充知识:Mybatis传多个参数的问题及MyBatis报错 Parameter '0' not found. Available parameters are [arg1, arg0, param1 问题对于使用Mybatis ,传多个参数,我们可以使用对象封装外,还可以直接传递参数对象的封装,例如查询对象条件basequery对象 <select id="getProductByProductQuer
启动springboot应用因未配置数据库报错的解决方案

目录启动springboot应用因未配置数据库报错描述解决方案 springboot 1.5.8.RELEASE 版本启动报错起因错误排查解决方法启动springboot应用因未配置数据库报错描述创建一个全新的springboot项目,第一次启动时报错,具体错误信息如下所示: Error starting ApplicationContext. To display the conditions report re-run your application with 'debu

PyTorch训练LSTM时loss.backward()报错的解决方案

正确做法：

如定义一个模型LSTM_Model()：

可试用的方法：

相关推荐

随机推荐