PyTorch计算损失函数对模型参数的Hessian矩阵示例

2025-12-14 03:21:31

前言

在实现Per-FedAvg的代码时，遇到如下问题：

可以发现，我们需要求损失函数对模型参数的Hessian矩阵。

模型定义

我们定义一个比较简单的模型：

class ANN(nn.Module):
    def __init__(self):
        super(ANN, self).__init__()
        self.sigmoid = nn.Sigmoid()
        self.fc1 = nn.Linear(3, 4)
        self.fc2 = nn.Linear(4, 5)

    def forward(self, data):
        x = self.fc1(data)
        x = self.fc2(x)

        return x

输出一下模型的参数：

model = ANN()
for param in model.parameters():
    print(param.size())

输出如下：

torch.Size([4, 3])
torch.Size([4])
torch.Size([5, 4])
torch.Size([5])

求解Hessian矩阵

我们首先定义数据：

data = torch.tensor([1, 2, 3], dtype=torch.float)
label = torch.tensor([1, 1, 5, 7, 8], dtype=torch.float)
pred = model(data)
loss_fn = nn.MSELoss()
loss = loss_fn(pred, label)

然后求解一阶梯度：

grads = torch.autograd.grad(loss, model.parameters(), retain_graph=True, create_graph=True)

输出一下grads：

(tensor([[-1.0530, -2.1059, -3.1589],
        [ 2.3615,  4.7229,  7.0844],
        [-1.5046, -3.0093, -4.5139],
        [-2.0272, -4.0543, -6.0815]], grad_fn=<TBackward0>), tensor([-1.0530,  2.3615, -1.5046, -2.0272], grad_fn=<SqueezeBackward1>), tensor([[ 0.2945, -0.2725, -0.8159, -0.6720],
        [ 0.1936, -0.1791, -0.5362, -0.4416],
        [ 1.0800, -0.9993, -2.9918, -2.4641],
        [ 1.3448, -1.2444, -3.7255, -3.0683],
        [ 1.2436, -1.1507, -3.4450, -2.8373]], grad_fn=<TBackward0>), tensor([-0.6045, -0.3972, -2.2165, -2.7600, -2.5522],
       grad_fn=<MseLossBackwardBackward0>))

可以发现一共4个Tensor，分别为损失函数对四个参数Tensor（两层，每层都有权重和偏置）的梯度。

然后针对每一个Tensor求解二阶梯度：

hessian_params = []
    for k in range(len(grads)):
        hess_params = torch.zeros_like(grads[k])
        for i in range(grads[k].size(0)):
            # 判断是w还是b
            if len(grads[k].size()) == 2:
                # w
                for j in range(grads[k].size(1)):
                    hess_params[i, j] = torch.autograd.grad(grads[k][i][j], model.parameters(), retain_graph=True)[k][i, j]
            else:
                # b
                hess_params[i] = torch.autograd.grad(grads[k][i], model.parameters(), retain_graph=True)[k][i]
        hessian_params.append(hess_params)

这里需要注意：由于模型一共两层，每一层都有权重和偏置，其中权重参数为二维，偏置参数为一维，在进行具体的二阶梯度求导时，需要进行判断。

最终得到的hessian_params是一个列表，列表中包含四个Tensor，对应损失函数对两层网络权重和偏置的二阶梯度。

以上就是PyTorch计算损失函数对模型参数的Hessian矩阵示例的详细内容，更多关于PyTorch计算损失函数Hessian矩阵的资料请关注我们其它相关文章！

pytorch交叉熵损失函数的weight参数的使用

首先必须将权重也转为Tensor的cuda格式: 然后将该class_weight作为交叉熵函数对应参数的输入值. class_weight = torch.FloatTensor([0.13859937, 0.5821059, 0.63871904, 2.30220396, 7.1588294, 0]).cuda() 补充:关于pytorch的CrossEntropyLoss的weight参数首先这个weight参数比想象中的要考虑的多你可以试试下面代码 import torch im
pytorch 实现cross entropy损失函数计算方式

均方损失函数: 这里 loss, x, y 的维度是一样的,可以是向量或者矩阵,i 是下标. 很多的 loss 函数都有 size_average 和 reduce 两个布尔类型的参数.因为一般损失函数都是直接计算 batch 的数据,因此返回的 loss 结果都是维度为 (batch_size, ) 的向量. (1)如果 reduce = False,那么 size_average 参数失效,直接返回向量形式的 loss (2)如果 reduce = True,那么 loss 返回的是标量 a
Pytorch十九种损失函数的使用详解

损失函数通过torch.nn包实现, 1 基本用法 criterion = LossCriterion() #构造函数有自己的参数 loss = criterion(x, y) #调用标准时也有参数 2 损失函数 2-1 L1范数损失 L1Loss 计算 output 和 target 之差的绝对值. torch.nn.L1Loss(reduction='mean') 参数: reduction-三个值,none: 不使用约简:mean:返回loss和的平均值: sum:返回loss的和.默认:
Pytorch 的损失函数Loss function使用详解

1.损失函数损失函数,又叫目标函数,是编译一个神经网络模型必须的两个要素之一.另一个必不可少的要素是优化器. 损失函数是指用于计算标签值和预测值之间差异的函数,在机器学习过程中,有多种损失函数可供选择,典型的有距离向量,绝对值向量等. 损失Loss必须是标量,因为向量无法比较大小(向量本身需要通过范数等标量来比较). 损失函数一般分为4种,平方损失函数,对数损失函数,HingeLoss 0-1 损失函数,绝对值损失函数. 我们先定义两个二维数组,然后用不同的损失函数计算其损失值. import
Pytorch损失函数nn.NLLLoss2d()用法说明

最近做显著星检测用到了NLL损失函数对于NLL函数,需要自己计算log和softmax的概率值,然后从才能作为输入输入 [batch_size, channel , h, w] 目标 [batch_size, h, w] 输入的目标矩阵,每个像素必须是类型.举个例子.第一个像素是0,代表着类别属于输入的第1个通道:第二个像素是0,代表着类别属于输入的第0个通道,以此类推. x = Variable(torch.Tensor([[[1, 2, 1], [2, 2, 1], [0, 1, 1]]
PyTorch计算损失函数对模型参数的Hessian矩阵示例

目录前言模型定义求解Hessian矩阵前言在实现Per-FedAvg的代码时,遇到如下问题: 可以发现,我们需要求损失函数对模型参数的Hessian矩阵. 模型定义我们定义一个比较简单的模型: class ANN(nn.Module): def __init__(self): super(ANN, self).__init__() self.sigmoid = nn.Sigmoid() self.fc1 = nn.Linear(3, 4) self.fc2 = nn.Linear(4
PyTorch和Keras计算模型参数的例子

Pytorch中,变量参数,用numel得到参数数目,累加 def get_parameter_number(net): total_num = sum(p.numel() for p in net.parameters()) trainable_num = sum(p.numel() for p in net.parameters() if p.requires_grad) return {'Total': total_num, 'Trainable': trainable_num} Kera
在pytorch中如何查看模型model参数parameters

目录 pytorch查看模型model参数parameters pytorch查看模型参数总结 1:DNN_printer 2:parameters 3:get_model_complexity_info() 4:torchstat pytorch查看模型model参数parameters 示例1:pytorch自带的faster r-cnn模型 import torch import torchvision model = torchvision.models.detection.faster
基于pytorch的保存和加载模型参数的方法

当我们花费大量的精力训练完网络,下次预测数据时不想再(有时也不必再)训练一次时,这时候torch.save(),torch.load()就要登场了. 保存和加载模型参数有两种方式: 方式一: torch.save(net.state_dict(),path): 功能:保存训练完的网络的各层参数(即weights和bias) 其中:net.state_dict()获取各层参数,path是文件存放路径(通常保存文件格式为.pt或.pth) net2.load_state_dict(torch.loa
Pytorch中实现只导入部分模型参数的方式

我们在做迁移学习,或者在分割,检测等任务想使用预训练好的模型,同时又有自己修改之后的结构,使得模型文件保存的参数,有一部分是不需要的(don't expected).我们搭建的网络对保存文件来说,有一部分参数也是没有的(missed).如果依旧使用torch.load(model.state_dict())的办法,就会出现 xxx expected,xxx missed类似的错误.那么在这种情况下,该如何导入模型呢? 好在Pytorch中的模型参数使用字典保存的,键是参数的名称,值是参数的具体数
Pytorch模型迁移和迁移学习,导入部分模型参数的操作

1. 利用resnet18做迁移学习 import torch from torchvision import models if __name__ == "__main__": # device = torch.device("cuda" if torch.cuda.is_available() else "cpu") device = 'cpu' print("-----device:{}".format(device))
Pytorch模型参数的保存和加载

目录一.前言二.参数保存三.参数的加载四.保存和加载整个模型五.总结一.前言在模型训练完成后,我们需要保存模型参数值用于后续的测试过程.由于保存整个模型将耗费大量的存储,故推荐的做法是只保存参数,使用时只需在建好模型的基础上加载. 通常来说,保存的对象包括网络参数值.优化器参数值.epoch值等.本文将简单介绍保存和加载模型参数的方法,同时也给出保存整个模型的方法供大家参考. 二.参数保存在这里我们使用 torch.save() 函数保存模型参数: import torch pa
PyTorch搭建一维线性回归模型（二）

PyTorch基础入门二:PyTorch搭建一维线性回归模型 1)一维线性回归模型的理论基础给定数据集,线性回归希望能够优化出一个好的函数,使得能够和尽可能接近. 如何才能学习到参数和呢?很简单,只需要确定如何衡量与之间的差别,我们一般通过损失函数(Loss Funciton)来衡量:.取平方是因为距离有正有负,我们于是将它们变为全是正的.这就是著名的均方误差.我们要做的事情就是希望能够找到和,使得: 均方差误差非常直观,也有着很好的几何意义,对应了常用的欧式距离.现在要求解这个连续函数的最小

PyTorch计算损失函数对模型参数的Hessian矩阵示例

目录

前言

模型定义

求解Hessian矩阵

相关推荐

随机推荐