pytorch 梯度NAN异常值的解决方案

2025-02-08 08:57:40

pytorch 梯度NAN异常值

gradient 为nan可能原因：

1、梯度爆炸

2、学习率太大

3、数据本身有问题

4、backward时，某些方法造成0在分母上，如：使用方法sqrt()

定位造成nan的代码：

import torch
# 异常检测开启
torch.autograd.set_detect_anomaly(True)
# 反向传播时检测是否有异常值，定位code
with torch.autograd.detect_anomaly():
 loss.backward()

pytorch处理inf和nan数值

在构建网络框架后，运行代码，发现很多tensor出现了inf值或者nan,在很多博客上没有找到对应的解决方法，大部分是基于numpy写的，比较麻烦。

下面基于torch BIF函数实现替换这2个值。

a = torch.Tensor([[1, 2, np.nan], [np.inf, np.nan, 4], [3, 4, 5]])

a
Out[158]:
tensor([[1., 2., nan],
        [inf, nan, 4.],
        [3., 4., 5.]])

下面把nan值还为0：

a = torch.where(torch.isnan(a), torch.full_like(a, 0), a)

a
Out[160]:
tensor([[1., 2., 0.],
        [inf, 0., 4.],
        [3., 4., 5.]])

接着把inf替换为1：

a = torch.where(torch.isinf(a), torch.full_like(a, 0), a)

a
Out[162]:
tensor([[1., 2., 0.],
        [0., 0., 4.],
        [3., 4., 5.]])

简单回顾

tips:对于某些tensor,可能已经开启了grad功能，需要把它先转为普通tensor（使用.data）

torch.where(condition,T,F) 函数有三个输入值，

第一个是判断条件，

第二个是符合条件的设置值，

第三个是不符合条件的设置值

torch.full_like(input, fill_value, …) 返回与input相同size，单位值为fill_value的矩阵

#如下面这个例子，a为3*3的tensor
b =torch.full_like(a, 0,)

b
Out[165]:
tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

PyTorch梯度裁剪避免训练loss nan的操作

近来在训练检测网络的时候会出现loss为nan的情况,需要中断重新训练,会很麻烦.因而选择使用PyTorch提供的梯度裁剪库来对模型训练过程中的梯度范围进行限制,修改之后,不再出现loss为nan的情况. PyTorch中采用torch.nn.utils.clip_grad_norm_来实现梯度裁剪,链接如下: https://pytorch.org/docs/stable/_modules/torch/nn/utils/clip_grad.html 训练代码使用示例如下: from torch
PyTorch 如何检查模型梯度是否可导

一.PyTorch 检查模型梯度是否可导当我们构建复杂网络模型或在模型中加入复杂操作时,可能会需要验证该模型或操作是否可导,即模型是否能够优化,在PyTorch框架下,我们可以使用torch.autograd.gradcheck函数来实现这一功能. 首先看一下官方文档中关于该函数的介绍: 可以看到官方文档中介绍了该函数基于何种方法,以及其参数列表,下面给出几个例子介绍其使用方法,注意: Tensor需要是双精度浮点型且设置requires_grad = True 第一个例子:检查某一操作是否可
pytorch 权重weight 与梯度grad 可视化操作

pytorch 权重weight 与梯度grad 可视化查看特定layer的权重以及相应的梯度信息打印模型观察到model下面有module的key,module下面有features的key, features下面有(0)的key,这样就可以直接打印出weight了在pdb debug界面输入p model.module.features[0].weight,就可以看到weight,输入 p model.module.features[0].weight.grad 就可以查看梯度信息
PyTorch 如何自动计算梯度

在PyTorch中,torch.Tensor类是存储和变换数据的重要工具,相比于Numpy,Tensor提供GPU计算和自动求梯度等更多功能,在深度学习中,我们经常需要对函数求梯度(gradient). PyTorch提供的autograd包能够根据输入和前向传播过程自动构建计算图,并执行反向传播. 本篇将介绍和总结如何使用autograd包来进行自动求梯度的有关操作. 1. 概念 Tensor是这个pytorch的自动求导部分的核心类,如果将其属性.requires_grad=True,它将开
浅谈pytorch中为什么要用 zero_grad() 将梯度清零

pytorch中为什么要用 zero_grad() 将梯度清零调用backward()函数之前都要将梯度清零,因为如果梯度不清零,pytorch中会将上次计算的梯度和本次计算的梯度累加. 这样逻辑的好处是,当我们的硬件限制不能使用更大的bachsize时,使用多次计算较小的bachsize的梯度平均值来代替,更方便,坏处当然是每次都要清零梯度. optimizer.zero_grad() output = net(input) loss = loss_f(output, target) los
Pytorch训练过程出现nan的解决方式

今天使用shuffleNetV2+,使用自己的数据集,遇到了loss是nan的情况,而且top1精确率出现断崖式上升,这显示是不正常的. 在网上查了下解决方案.我的问题是出在学习率上了. 我自己做的样本数据集比较小,就三类,每类大概三百多张,初始学习率是0.5.后来设置为0.1就解决了. 按照解决方案上写的.出现nan的情况还有以下几种: 学习率太大,但是样本数据集又很小.(我的情况) 自定义的loss除以了一个很小的数字,小到接近0. 数据不干净,数据本身就有nan,可以用numpy.isna
pytorch 梯度NAN异常值的解决方案

pytorch 梯度NAN异常值 gradient 为nan可能原因: 1.梯度爆炸 2.学习率太大 3.数据本身有问题 4.backward时,某些方法造成0在分母上, 如:使用方法sqrt() 定位造成nan的代码: import torch # 异常检测开启 torch.autograd.set_detect_anomaly(True) # 反向传播时检测是否有异常值,定位code with torch.autograd.detect_anomaly(): loss.backward()
PyTorch: 梯度下降及反向传播的实例详解

线性模型线性模型介绍线性模型是很常见的机器学习模型,通常通过线性的公式来拟合训练数据集.训练集包括(x,y),x为特征,y为目标.如下图: 将真实值和预测值用于构建损失函数,训练的目标是最小化这个函数,从而更新w.当损失函数达到最小时(理想上,实际情况可能会陷入局部最优),此时的模型为最优模型,线性模型常见的的损失函数: 线性模型例子下面通过一个例子可以观察不同权重(w)对模型损失函数的影响. #author:yuquanle #data:2018.2.5 #Study of Linear
pytorch梯度剪裁方式

我就废话不多说,看例子吧! import torch.nn as nn outputs = model(data) loss= loss_fn(outputs, target) optimizer.zero_grad() loss.backward() nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2) optimizer.step() nn.utils.clip_grad_norm_ 的参数: param
人工智能学习Pytorch梯度下降优化示例详解

目录一.激活函数 1.Sigmoid函数 2.Tanh函数 3.ReLU函数二.损失函数及求导 1.autograd.grad 2.loss.backward() 3.softmax及其求导三.链式法则 1.单层感知机梯度 2. 多输出感知机梯度 3. 中间有隐藏层的求导 4.多层感知机的反向传播四.优化举例一.激活函数 1.Sigmoid函数函数图像以及表达式如下: 通过该函数,可以将输入的负无穷到正无穷的输入压缩到0-1之间.在x=0的时候,输出0.5 通过PyTorch实现方式
PyTorch梯度下降反向传播

前言: 反向传播的目的是计算成本函数C对网络中任意w或b的偏导数.一旦我们有了这些偏导数,我们将通过一些常数 α的乘积和该数量相对于成本函数的偏导数来更新网络中的权重和偏差.这是流行的梯度下降算法.而偏导数给出了最大上升的方向.因此,关于反向传播算法,我们继续查看下文. 我们向相反的方向迈出了一小步——最大下降的方向,也就是将我们带到成本函数的局部最小值的方向如题: 意思是利用这个二次模型来预测数据,减小损失函数(MSE)的值. 代码如下: import torch import matplo
安装pytorch时报sslerror错误的解决方案

首先说一下 ,我是用的anaconda3装的pytorch 为了方便建议你也安装一个. 其实这个挺简单的,你找找"c:/user/你的用户名/"目录下有没有一个叫 .condarc 的文件,如图: 如果没有,创建一个就好,不过一般会自动创建一个然后复制下面的文件进入这个文件覆盖 channels: - https://mirrors.ustc.edu.cn/anaconda/cloud/pytorch/win-64 - https://mirrors.ustc.edu.cn/anac
pytorch loss反向传播出错的解决方案

今天在使用pytorch进行训练,在运行 loss.backward() 误差反向传播时出错 : RuntimeError: grad can be implicitly created only for scalar outputs File "train.py", line 143, in train loss.backward() File "/usr/local/lib/python3.6/dist-packages/torch/tensor.py", li
pytorch损失反向传播后梯度为none的问题

错误代码:输出grad为none a = torch.ones((2, 2), requires_grad=True).to(device) b = a.sum() b.backward() print(a.grad) 由于.to(device)是一次操作,此时的a已经不是叶子节点了修改后的代码为: a = torch.ones((2, 2), requires_grad=True) c = a.to(device) b = c.sum() b.backward() print(a.grad)
PyTorch策略梯度算法详情

目录 0. 前言 1. 策略梯度算法 2. 使用策略梯度算法解决CartPole问题 0. 前言本节中,我们使用策略梯度算法解决 CartPole 问题.虽然在这个简单问题中,使用随机搜索策略和爬山算法就足够了.但是,我们可以使用这个简单问题来更专注的学习策略梯度算法,并在之后的学习中使用此算法解决更加复杂的问题. 1. 策略梯度算法策略梯度算法通过记录回合中的所有时间步并基于回合结束时与这些时间步相关联的奖励来更新权重训练智能体.使智能体遍历整个回合然后基于获得的奖励更新策略的技术称为蒙特

pytorch 梯度NAN异常值的解决方案

pytorch 梯度NAN异常值

gradient 为nan可能原因：

pytorch处理inf和nan数值

简单回顾

相关推荐

随机推荐