解决pytorch中的kl divergence计算问题

2025-04-01 06:42:50

偶然从pytorch讨论论坛中看到的一个问题，KL divergence different results from tf，kl divergence 在TensorFlow中和pytorch中计算结果不同，平时没有注意到，记录下

一篇关于KL散度、JS散度以及交叉熵对比的文章

kl divergence 介绍

KL散度( Kullback–Leibler divergence)，又称相对熵，是描述两个概率分布 P 和 Q 差异的一种方法。计算公式:

可以发现，P 和 Q 中元素的个数不用相等，只需要两个分布中的离散元素一致。

举个简单例子：

两个离散分布分布分别为 P 和 Q

P 的分布为：{1，1，2，2，3}

Q 的分布为：{1，1，1，1，1，2，3，3，3，3}

我们发现，虽然两个分布中元素个数不相同，P 的元素个数为 5，Q 的元素个数为 10。但里面的元素都有 “1”，“2”，“3” 这三个元素。

当 x = 1时，在 P 分布中，“1” 这个元素的个数为 2，故 P(x = 1) = 2/5 = 0.4，在 Q 分布中，“1” 这个元素的个数为 5，故 Q(x = 1) = 5/10 = 0.5

同理，

当 x = 2 时，P(x = 2) = 2/5 = 0.4 ，Q(x = 2) = 1/10 = 0.1

当 x = 3 时，P(x = 3) = 1/5 = 0.2 ，Q(x = 3) = 4/10 = 0.4

把上述概率带入公式：

至此，就计算完成了两个离散变量分布的KL散度。

pytorch 中的 kl_div 函数

pytorch中有用于计算kl散度的函数 kl_div

torch.nn.functional.kl_div(input, target, size_average=None, reduce=None, reduction='mean')

计算 D （p||q）

1、不用这个函数的计算结果为：

与手算结果相同

2、使用函数：

（这是计算正确的，结果有差异是因为pytorch这个函数中默认的是以e为底）

注意：

1、函数中的 p q 位置相反(也就是想要计算D(p||q)，要写成kl_div（q.log（），p）的形式)，而且q要先取 log

2、reduction 是选择对各部分结果做什么操作，默认为取平均数，这里选择求和

好别扭的用法，不知道为啥官方把它设计成这样

补充：pytorch 的KL divergence的实现

看代码吧~

import torch.nn.functional as F
# p_logit: [batch, class_num]
# q_logit: [batch, class_num]
def kl_categorical(p_logit, q_logit):
    p = F.softmax(p_logit, dim=-1)
    _kl = torch.sum(p * (F.log_softmax(p_logit, dim=-1)
                                  - F.log_softmax(q_logit, dim=-1)), 1)
    return torch.mean(_kl)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

Pytorch 计算误判率,计算准确率,计算召回率的例子

无论是官方文档还是各位大神的论文或搭建的网络很多都是计算准确率,很少有计算误判率, 下面就说说怎么计算准确率以及误判率.召回率等指标 1.计算正确率获取每批次的预判正确个数 train_correct = (pred == batch_y.squeeze(1)).sum() 该语句的意思是预测的标签与实际标签相等的总数获取训练集总的预判正确个数 train_acc += train_correct.data[0] #用来计算正确率准确率 : train_acc / (len(train_
pytorch 实现计算 kl散度 F.kl_div()

先附上官方文档说明:https://pytorch.org/docs/stable/nn.functional.html torch.nn.functional.kl_div(input, target, size_average=None, reduce=None, reduction='mean') Parameters input – Tensor of arbitrary shape target – Tensor of the same shape as input size_aver
浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式

我们经常会看到后缀名为.pt, .pth, .pkl的pytorch模型文件,这几种模型文件在格式上有什么区别吗? 其实它们并不是在格式上有区别,只是后缀不同而已(仅此而已),在用torch.save()函数保存模型文件时,各人有不同的喜好,有些人喜欢用.pt后缀,有些人喜欢用.pth或.pkl.用相同的torch.save()语句保存出来的模型文件没有什么不同. 在pytorch官方的文档/代码里,有用.pt的,也有用.pth的.一般惯例是使用.pth,但是官方文档里貌似.pt更多,而且官方也
解决pytorch中的kl divergence计算问题

偶然从pytorch讨论论坛中看到的一个问题,KL divergence different results from tf,kl divergence 在TensorFlow中和pytorch中计算结果不同,平时没有注意到,记录下一篇关于KL散度.JS散度以及交叉熵对比的文章 kl divergence 介绍 KL散度( Kullback–Leibler divergence),又称相对熵,是描述两个概率分布 P 和 Q 差异的一种方法.计算公式: 可以发现,P 和 Q 中元素的个数不用相等
解决Pytorch中Batch Normalization layer踩过的坑

1. 注意momentum的定义 Pytorch中的BN层的动量平滑和常见的动量法计算方式是相反的,默认的momentum=0.1 BN层里的表达式为: 其中γ和β是可以学习的参数.在Pytorch中,BN层的类的参数有: CLASS torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) 每个参数具体含义参见文档,需要注意的是,affine定义了BN层的
解决Pytorch中的神坑:关于model.eval的问题

有时候使用Pytorch训练完模型,在测试数据上面得到的结果令人大跌眼镜. 这个时候需要检查一下定义的Model类中有没有 BN 或 Dropout 层,如果有任何一个存在那么在测试之前需要加入一行代码: #model是实例化的模型对象 model = model.eval() 表示将模型转变为evaluation(测试)模式,这样就可以排除BN和Dropout对测试的干扰. 因为BN和Dropout在训练和测试时是不同的: 对于BN,训练时通常采用mini-batch,所以每一批中的mean
浅谈pytorch中为什么要用 zero_grad() 将梯度清零

pytorch中为什么要用 zero_grad() 将梯度清零调用backward()函数之前都要将梯度清零,因为如果梯度不清零,pytorch中会将上次计算的梯度和本次计算的梯度累加. 这样逻辑的好处是,当我们的硬件限制不能使用更大的bachsize时,使用多次计算较小的bachsize的梯度平均值来代替,更方便,坏处当然是每次都要清零梯度. optimizer.zero_grad() output = net(input) loss = loss_f(output, target) los
解决pytorch GPU 计算过程中出现内存耗尽的问题

Pytorch GPU运算过程中会出现:"cuda runtime error(2): out of memory"这样的错误.通常,这种错误是由于在循环中使用全局变量当做累加器,且累加梯度信息的缘故,用官方的说法就是:"accumulate history across your training loop".在默认情况下,开启梯度计算的Tensor变量是会在GPU保持他的历史数据的,所以在编程或者调试过程中应该尽力避免在循环中累加梯度信息. 下面举个栗子: 上代
解决Pytorch训练过程中loss不下降的问题

在使用Pytorch进行神经网络训练时,有时会遇到训练学习率不下降的问题.出现这种问题的可能原因有很多,包括学习率过小,数据没有进行Normalization等.不过除了这些常规的原因,还有一种难以发现的原因:在计算loss时数据维数不匹配. 下面是我的代码: loss_function = torch.nn.MSE_loss() optimizer.zero_grad() output = model(x_train) loss = loss_function(output, y_train)
Pytorch中accuracy和loss的计算知识点总结

这几天关于accuracy和loss的计算有一些疑惑,原来是自己还没有弄清楚. 给出实例 def train(train_loader, model, criteon, optimizer, epoch): train_loss = 0 train_acc = 0 num_correct= 0 for step, (x,y) in enumerate(train_loader): # x: [b, 3, 224, 224], y: [b] x, y = x.to(device), y.to(de
在Pytorch中计算自己模型的FLOPs方式

https://github.com/Lyken17/pytorch-OpCounter 安装方法很简单: pip install thop 基本用法: from torchvision.models import resnet50from thop import profile model = resnet50() flops, params = profile(model, input_size=(1, 3, 224,224)) 对自己的module进行特别的计算: class YourMo
pytorch中交叉熵损失(nn.CrossEntropyLoss())的计算过程详解

公式首先需要了解CrossEntropyLoss的计算过程,交叉熵的函数是这样的: 其中,其中yi表示真实的分类结果.这里只给出公式,关于CrossEntropyLoss的其他详细细节请参照其他博文. 测试代码(一维) import torch import torch.nn as nn import math criterion = nn.CrossEntropyLoss() output = torch.randn(1, 5, requires_grad=True) label = tor
pytorch中的卷积和池化计算方式详解

TensorFlow里面的padding只有两个选项也就是valid和same pytorch里面的padding么有这两个选项,它是数字0,1,2,3等等,默认是0 所以输出的h和w的计算方式也是稍微有一点点不同的:tf中的输出大小是和原来的大小成倍数关系,不能任意的输出大小:而nn输出大小可以通过padding进行改变 nn里面的卷积操作或者是池化操作的H和W部分都是一样的计算公式:H和W的计算 class torch.nn.MaxPool2d(kernel_size, stride=Non