Pytorch 如何实现常用正则化

2025-11-14 19:11:15

Stochastic Depth

本文的正则化针对于ResNet中的残差结构，类似于dropout的原理，训练时对模块进行随机的删除，从而提升模型的泛化能力。

对于上述的ResNet网络，模块越在后面被drop掉的概率越大。

作者直觉上认为前期提取的低阶特征会被用于后面的层。

第一个模块保留的概率为1，之后保留概率随着深度线性递减。

对一个模块的drop函数可以采用如下的方式实现：

def drop_connect(inputs, p, training):
    """ Drop connect. """
    if not training: return inputs # 测试阶段
    batch_size = inputs.shape[0]
    keep_prob = 1 - p
    random_tensor = keep_prob
    random_tensor += torch.rand([batch_size, 1, 1, 1], dtype=inputs.dtype, device=inputs.device)
    # 以样本为单位生成模块是否被drop的01向量
    binary_tensor = torch.floor(random_tensor)
    # 因为越往后越容易被drop，所以没有被drop的值就要通过除keep_prob来放大
    output = inputs / keep_prob * binary_tensor
    return output

在Pytorch建立的Module类中，具有forward函数

可以在forward函数中进行drop：

def forward(self, x):
 x=...
 if stride == 1 and in_planes == out_planes:
        if drop_connect_rate:
            x = drop_connect(x, p=drop_connect_rate, training=self.training)
        x = x + inputs  # skip connection
    return x

主函数：

for idx, block in enumerate(self._blocks):
    drop_connect_rate = self._global_params.drop_connect_rate
    if drop_connect_rate:
        drop_connect_rate *= float(idx) / len(self._blocks)
    x = block(x, drop_connect_rate=drop_connect_rate)

补充：pytorch中的L2正则化实现方法

搭建神经网络时需要使用L2正则化等操作来防止过拟合，而pytorch不像TensorFlow能在任意卷积函数中添加L2正则化的超参，那怎么在pytorch中实现L2正则化呢？

方法如下：超级简单！

optimizer = torch.optim.Adam(net.parameters(), lr=0.001, weight_decay=5.0)

torch.optim.Adam()参数中的 weight_decay=5.0 即为L2正则化（只是pytorch换了名字），其数值即为L2正则化的惩罚系数，一般设置为1、5、10（根据需要设置，默认为0，不使用L2正则化）。

注：

pytorch中的优化函数L2正则化默认对所有网络参数进行惩罚，且只能实现L2正则化，如需只惩罚指定网络层参数或采用L1正则化，只能自己定义。。。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

pytorch 实现L2和L1正则化regularization的操作

1.torch.optim优化器实现L2正则化 torch.optim集成了很多优化器,如SGD,Adadelta,Adam,Adagrad,RMSprop等,这些优化器自带的一个参数weight_decay,用于指定权值衰减率,相当于L2正则化中的λ参数,注意torch.optim集成的优化器只有L2正则化方法,你可以查看注释,参数weight_decay 的解析是: weight_decay (float, optional): weight decay (L2 penalty) (defa
PyTorch 实现L2正则化以及Dropout的操作

了解知道Dropout原理如果要提高神经网络的表达或分类能力,最直接的方法就是采用更深的网络和更多的神经元,复杂的网络也意味着更加容易过拟合. 于是就有了Dropout,大部分实验表明其具有一定的防止过拟合的能力. 用代码实现Dropout Dropout的numpy实现 PyTorch中实现dropout import torch.nn.functional as F import torch.nn.init as init import torch from torch.autograd
在PyTorch中使用标签平滑正则化的问题

什么是标签平滑?在PyTorch中如何去使用它? 在训练深度学习模型的过程中,过拟合和概率校准(probability calibration)是两个常见的问题.一方面,正则化技术可以解决过拟合问题,其中较为常见的方法有将权重调小,迭代提前停止以及丢弃一些权重等.另一方面,Platt标度法和isotonic regression法能够对模型进行校准.但是有没有一种方法可以同时解决过拟合和模型过度自信呢? 标签平滑也许可以.它是一种去改变目标变量的正则化技术,能使模型的预测结果不再仅为一个确定值.
Pytorch 如何实现常用正则化

Stochastic Depth 论文:Deep Networks with Stochastic Depth 本文的正则化针对于ResNet中的残差结构,类似于dropout的原理,训练时对模块进行随机的删除,从而提升模型的泛化能力. 对于上述的ResNet网络,模块越在后面被drop掉的概率越大. 作者直觉上认为前期提取的低阶特征会被用于后面的层. 第一个模块保留的概率为1,之后保留概率随着深度线性递减. 对一个模块的drop函数可以采用如下的方式实现: def drop_connect(i
pytorch常用数据类型所占字节数对照表一览

PyTorch上的常用数据类型如下 Data type dtype CPU tensor GPU tensor Size/bytes 32-bit floating torch.float32 or torch.float torch.FloatTensor torch.cuda.FloatTensor 4 64-bit floating torch.float64 or torch.double torch.DoubleTensor torch.cuda.DoubleTensor 8 16-b
pytorch加载语音类自定义数据集的方法教程

前言 pytorch对一下常用的公开数据集有很方便的API接口,但是当我们需要使用自己的数据集训练神经网络时,就需要自定义数据集,在pytorch中,提供了一些类,方便我们定义自己的数据集合 torch.utils.data.Dataset:所有继承他的子类都应该重写 __len()__ , __getitem()__ 这两个方法 __len()__ :返回数据集中数据的数量 __getitem()__ :返回支持下标索引方式获取的一个数据 torch.utils.data.DataLoad
pytorch简介

一.Pytorch是什么? Pytorch是torch的python版本,是由Facebook开源的神经网络框架,专门针对 GPU 加速的深度神经网络(DNN)编程.Torch 是一个经典的对多维矩阵数据进行操作的张量(tensor )库,在机器学习和其他数学密集型应用有广泛应用.与Tensorflow的静态计算图不同,pytorch的计算图是动态的,可以根据计算需要实时改变计算图.但由于Torch语言采用 Lua,导致在国内一直很小众,并逐渐被支持 Python 的 Tensorflow
pytorch中的nn.ZeroPad2d()零填充函数实例详解

在卷积神经网络中,有使用设置padding的参数,配合卷积步长,可以使得卷积后的特征图尺寸大小不发生改变,那么在手动实现图片或特征图的边界零填充时,常用的函数是nn.ZeroPad2d(),可以指定tensor的四个方向上的填充,比如左边添加1dim.右边添加2dim.上边添加3dim.下边添加4dim,即指定paddin参数为(1,2,3,4),本文中代码设置的是(3,4,5,6)如下: import torch.nn as nn import cv2 import torchvision f
人工智能学习Pytorch张量数据类型示例详解

目录 1.python 和 pytorch的数据类型区别 2.张量 ①一维张量 ②二维张量 ③3维张量 ④4维张量 1.python 和 pytorch的数据类型区别在PyTorch中无法展示字符串,因此表达字符串,需要将其转换成编码的类型,比如one_hot,word2vec等. 2.张量在python中,会有标量,向量,矩阵等的区分.但在PyTorch中,这些统称为张量tensor,只是维度不同而已. 标量就是0维张量,只有一个数字,没有维度. 向量就是1维张量,是有顺序的数字,但没有"
pytorch--之halfTensor的使用详解

证明出错在dataloader里面在pytorch当中,float16和half是一样的数据结构,都是属于half操作, 然后dataloader不能返回half值,所以在dataloader里面,要把float16改成float32即可返回补充:Pytorch中Tensor常用操作归纳对常用的一些Tensor的常用操作进行简单归纳,方便日后查询.后续有用到再补充. 1.创建Tensor import torch #经典方式 device = torch.device("cuda:0&qu
Pytorch中的数据集划分&正则化方法

1.训练集&验证集&测试集训练集:训练数据验证集:验证不同算法(比如利用网格搜索对超参数进行调整等),检验哪种更有效测试集:正确评估分类器的性能正常流程:验证集会记录每个时间戳的参数,在加载test数据前会加载那个最好的参数,再来评估.比方说训练完6000个epoch后,发现在第3520个epoch的validation表现最好,测试时会加载第3520个epoch的参数. import torch import torch.nn as nn import torch.nn.func
pytorch 常用线性函数详解

Pytorch的线性函数主要封装了Blas和Lapack,其用法和接口都与之类似. 常用的线性函数如下: 函数功能 trace 对角线元素之和(矩阵的迹) diag 对角线元素 triu/tril 矩阵的上三角/下三角,可指定偏移量 mm/bmm 矩阵乘法,batch的矩阵乘法 t 转置 dot/cross 内积/外积 inverse 求逆矩阵 svd 奇异值分解注意:矩阵的转置会使存储空间不连续,需调用它的.contiguous方法转为连续. 例如: import torch as t b