浅谈Pytorch中的自动求导函数backward()所需参数的含义

2025-01-30 07:27:24

正常来说backward( )函数是要传入参数的，一直没弄明白backward需要传入的参数具体含义，但是没关系，生命在与折腾，咱们来折腾一下，嘿嘿。

对标量自动求导

首先，如果out.backward()中的out是一个标量的话（相当于一个神经网络有一个样本，这个样本有两个属性，神经网络有一个输出）那么此时我的backward函数是不需要输入任何参数的。

import torch
from torch.autograd import Variable

a = Variable(torch.Tensor([2,3]),requires_grad=True)
b = a + 3
c = b * 3
out = c.mean()
out.backward()
print('input:')
print(a.data)
print('output:')
print(out.data.item())
print('input gradients are:')
print(a.grad)

运行结果：

不难看出，我们构建了这样的一个函数：

所以其求导也很容易看出：

这是对其进行标量自动求导的结果.

对向量自动求导

如果out.backward()中的out是一个向量（或者理解成1xN的矩阵）的话，我们对向量进行自动求导，看看会发生什么？

先构建这样的一个模型（相当于一个神经网络有一个样本，这个样本有两个属性，神经网络有两个输出）：

import torch
from torch.autograd import Variable

a = Variable(torch.Tensor([[2.,4.]]),requires_grad=True)
b = torch.zeros(1,2)
b[0,0] = a[0,0] ** 2
b[0,1] = a[0,1] ** 3
out = 2 * b
#其参数要传入和out维度一样的矩阵
out.backward(torch.FloatTensor([[1.,1.]]))
print('input:')
print(a.data)
print('output:')
print(out.data)
print('input gradients are:')
print(a.grad)

模型也很简单，不难看出out求导出来的雅克比应该是：

因为a1 = 2，a2 = 4，所以上面的矩阵应该是:

运行的结果：

嗯，的确是8和96，但是仔细想一想，和咱们想要的雅克比矩阵的形式也不一样啊。难道是backward自动把0给省略了？

咱们继续试试，这次在上一个模型的基础上进行小修改，如下：

import torch
from torch.autograd import Variable

a = Variable(torch.Tensor([[2.,4.]]),requires_grad=True)
b = torch.zeros(1,2)
b[0,0] = a[0,0] ** 2 + a[0,1]
b[0,1] = a[0,1] ** 3 + a[0,0]
out = 2 * b
#其参数要传入和out维度一样的矩阵
out.backward(torch.FloatTensor([[1.,1.]]))
print('input:')
print(a.data)
print('output:')
print(out.data)
print('input gradients are:')
print(a.grad)

可以看出这个模型的雅克比应该是：

运行一下：

等等，什么鬼？正常来说不应该是

么？我是谁？我再哪？为什么就给我2个数，而且是 8 + 2 = 10 ，96 + 2 = 98 。难道都是加的 2 ？想一想，刚才咱们backward中传的参数是 [ [ 1 , 1 ] ]，难道安装这个关系对应求和了？咱们换个参数来试一试，程序中只更改传入的参数为[ [ 1 , 2 ] ]：

import torch
from torch.autograd import Variable

a = Variable(torch.Tensor([[2.,4.]]),requires_grad=True)
b = torch.zeros(1,2)
b[0,0] = a[0,0] ** 2 + a[0,1]
b[0,1] = a[0,1] ** 3 + a[0,0]
out = 2 * b
#其参数要传入和out维度一样的矩阵
out.backward(torch.FloatTensor([[1.,2.]]))
print('input:')
print(a.data)
print('output:')
print(out.data)
print('input gradients are:')
print(a.grad)

嗯，这回可以理解了，我们传入的参数，是对原来模型正常求导出来的雅克比矩阵进行线性操作，可以把我们传进的参数（设为arg）看成一个列向量，那么我们得到的结果就是:

在这个题目中，我们得到的实际是：

看起来一切完美的解释了，但是就在我刚刚打字的一刻，我意识到官方文档中说k.backward()传入的参数应该和k具有相同的维度，所以如果按上述去解释是解释不通的。哪里出问题了呢？

仔细看了一下，原来是这样的：在对雅克比矩阵进行线性操作的时候，应该把我们传进的参数（设为arg）看成一个行向量（不是列向量），那么我们得到的结果就是:

也就是：

这回我们就解释的通了。

现在我们来输出一下雅克比矩阵吧，为了不引起歧义，我们让雅克比矩阵的每个数值都不一样（一开始分析错了就是因为雅克比矩阵中有相同的数据），所以模型小改动如下：

import torch
from torch.autograd import Variable

a = Variable(torch.Tensor([[2.,4.]]),requires_grad=True)
b = torch.zeros(1,2)
b[0,0] = a[0,0] ** 2 + a[0,1]
b[0,1] = a[0,1] ** 3 + a[0,0] * 2
out = 2 * b
#其参数要传入和out维度一样的矩阵
out.backward(torch.FloatTensor([[1,0]]),retain_graph=True)
A_temp = copy.deepcopy(a.grad)
a.grad.zero_()
out.backward(torch.FloatTensor([[0,1]]))
B_temp = a.grad
print('jacobian matrix is:')
print(torch.cat( (A_temp,B_temp),0 ))

如果没问题的话咱们的雅克比矩阵应该是 [ [ 8 , 2 ] , [ 4 , 96 ] ]

好了，下面是见证奇迹的时刻了,不要眨眼睛奥，千万不要眨眼睛… 3 2 1 砰…

好了，现在总结一下：因为经过了复杂的神经网络之后，out中每个数值都是由很多输入样本的属性（也就是输入数据）线性或者非线性组合而成的，那么out中的每个数值和输入数据的每个数值都有关联，也就是说【out】中的每个数都可以对【a】中每个数求导，那么我们backward（）的参数[k1,k2,k3…kn]的含义就是：

也可以理解成每个out分量对an求导时的权重。

对矩阵自动求导

现在，如果out是一个矩阵呢？

下面的例子也可以理解为：相当于一个神经网络有两个样本，每个样本有两个属性，神经网络有两个输出。

import torch
from torch.autograd import Variable
from torch import nn

a = Variable(torch.FloatTensor([[2,3],[1,2]]),requires_grad=True)
w = Variable( torch.zeros(2,1),requires_grad=True )
out = torch.mm(a,w)
out.backward(torch.FloatTensor([[1.],[1.]]),retain_graph=True)
print("gradients are:{}".format(w.grad.data))

如果前面的例子理解了，那么这个也很好理解，backward输入的参数k是一个2x1的矩阵，2代表的就是样本数量，就是在前面的基础上，再对每个样本进行加权求和。结果是：

如果有兴趣，也可以拓展一下多个样本的多分类问题，猜一下k的维度应该是【输入样本的个数 * 分类的个数】

好啦，纠结我好久的pytorch自动求导原理算是彻底搞懂啦~~~

以上这篇浅谈Pytorch中的自动求导函数backward()所需参数的含义就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

浅谈对pytroch中torch.autograd.backward的思考

反向传递法则是深度学习中最为重要的一部分,torch中的backward可以对计算图中的梯度进行计算和累积这里通过一段程序来演示基本的backward操作以及需要注意的地方 >>> import torch >>> from torch.autograd import Variable >>> x = Variable(torch.ones(2,2), requires_grad=True) >>> y = x + 2 >&g
浅谈Pytorch中的自动求导函数backward()所需参数的含义

正常来说backward( )函数是要传入参数的,一直没弄明白backward需要传入的参数具体含义,但是没关系,生命在与折腾,咱们来折腾一下,嘿嘿. 对标量自动求导首先,如果out.backward()中的out是一个标量的话(相当于一个神经网络有一个样本,这个样本有两个属性,神经网络有一个输出)那么此时我的backward函数是不需要输入任何参数的. import torch from torch.autograd import Variable a = Variable(torch.Te
浅谈Pytorch中的torch.gather函数的含义

pytorch中的gather函数 pytorch比tensorflow更加编程友好,所以准备用pytorch试着做最近要做的一些实验. 立个flag开始学习pytorch,新开一个分类整理学习pytorch中的一些踩到的泥坑. 今天刚开始接触,读了一下documentation,写一个一开始每太搞懂的函数gather b = torch.Tensor([[1,2,3],[4,5,6]]) print b index_1 = torch.LongTensor([[0,1],[2,0]]) ind
Pytorch中的自动求梯度机制和Variable类实例

自动求导机制是每一个深度学习框架中重要的性质,免去了手动计算导数,下面用代码介绍并举例说明Pytorch的自动求导机制. 首先介绍Variable,Variable是对Tensor的一个封装,操作和Tensor是一样的,但是每个Variable都有三个属性:Varibale的Tensor本身的.data,对应Tensor的梯度.grad,以及这个Variable是通过什么方式得到的.grad_fn,根据最新消息,在pytorch0.4更新后,torch和torch.autograd.Variab
浅谈pytorch中的BN层的注意事项

最近修改一个代码的时候,当使用网络进行推理的时候,发现每次更改测试集的batch size大小竟然会导致推理结果不同,甚至产生错误结果,后来发现在网络中定义了BN层,BN层在训练过程中,会将一个Batch的中的数据转变成正太分布,在推理过程中使用训练过程中的参数对数据进行处理,然而网络并不知道你是在训练还是测试阶段,因此,需要手动的加上,需要在测试和训练阶段使用如下函数. model.train() or model.eval() BN类的定义见pytorch中文参考文档补充知识:关于pyto
浅谈PyTorch中in-place operation的含义

in-place operation在pytorch中是指改变一个tensor的值的时候,不经过复制操作,而是直接在原来的内存上改变它的值.可以把它成为原地操作符. 在pytorch中经常加后缀"_"来代表原地in-place operation,比如说.add_() 或者.scatter().python里面的+=,*=也是in-place operation. 下面是正常的加操作,执行结束加操作之后x的值没有发生变化: import torch x=torch.rand(2) #t
浅谈pytorch中torch.max和F.softmax函数的维度解释

在利用torch.max函数和F.Ssoftmax函数时,对应该设置什么维度,总是有点懵,遂总结一下: 首先看看二维tensor的函数的例子: import torch import torch.nn.functional as F input = torch.randn(3,4) print(input) tensor([[-0.5526, -0.0194, 2.1469, -0.2567], [-0.3337, -0.9229, 0.0376, -0.0801], [ 1.4721, 0.1
浅谈Redis中的自动过期机制

目录 Redis中的自动过期机制一.使用Redis Key自动过期机制二.SpringBoot整合key失效监听 Redis中的自动过期机制实现需求:处理订单过期自动取消,比如下单30分钟未支付自动更改订单状态 1.使用Redis Key自动过期出发事件通知2.使用定时任务30分钟后检查3.按照每分钟轮训检查 CREATE TABLE `order_number` ( `id` int(11) NOT NULL AUTO_INCREMENT, `order_name` varchar(25
浅谈Pytorch中autograd的若干(踩坑)总结

关于Variable和Tensor 旧版本的Pytorch中,Variable是对Tensor的一个封装:在Pytorch大于v0.4的版本后,Varible和Tensor合并了,意味着Tensor可以像旧版本的Variable那样运行,当然新版本中Variable封装仍旧可以用,但是对Varieble操作返回的将是一个Tensor. import torch as t from torch.autograd import Variable a = t.ones(3,requires_grad=
浅谈pytorch中stack和cat的及to_tensor的坑

初入计算机视觉遇到的一些坑 1.pytorch中转tensor x=np.random.randint(10,100,(10,10,10)) x=TF.to_tensor(x) print(x) 这个函数会对输入数据进行自动归一化,比如有时候我们需要将0-255的图片转为numpy类型的数据,则会自动转为0-1之间 2.stack和cat之间的差别 stack x=torch.randn((1,2,3)) y=torch.randn((1,2,3)) z=torch.stack((x,y))#默
浅谈pytorch中为什么要用 zero_grad() 将梯度清零

pytorch中为什么要用 zero_grad() 将梯度清零调用backward()函数之前都要将梯度清零,因为如果梯度不清零,pytorch中会将上次计算的梯度和本次计算的梯度累加. 这样逻辑的好处是,当我们的硬件限制不能使用更大的bachsize时,使用多次计算较小的bachsize的梯度平均值来代替,更方便,坏处当然是每次都要清零梯度. optimizer.zero_grad() output = net(input) loss = loss_f(output, target) los

浅谈Pytorch中的自动求导函数backward()所需参数的含义

相关推荐

随机推荐