python神经网络Batch Normalization底层原理详解

2025-02-24 19:11:02

什么是Batch Normalization

Batch Normalization是神经网络中常用的层，解决了很多深度学习中遇到的问题，我们一起来学习一哈。

Batch Normalization是由google提出的一种训练优化方法。参考论文：Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift。

Batch Normalization的名称为批标准化，它的功能是使得输入的X数据符合同一分布，从而使得训练更加简单、快速。

一般来讲，Batch Normalization会放在卷积层后面，即卷积 + 标准化 + 激活函数。

其计算过程可以简单归纳为以下3点：

1、求数据均值。

2、求数据方差。

3、数据进行标准化。

Batch Normalization的计算公式

Batch Normalization的计算公式主要看如下这幅图：

这个公式一定要静下心来看，整个公式可以分为四行：

1、对输入进来的数据X进行均值求取。

2、利用输入进来的数据X减去第一步得到的均值，然后求平方和，获得输入X的方差。

3、利用输入X、第一步获得的均值和第二步获得的方差对数据进行归一化，即利用X减去均值，然后除上方差开根号。方差开根号前需要添加上一个极小值。

4、引入γ和β变量，对输入进来的数据进行缩放和平移。利用γ和β两个参数，让我们的网络可以学习恢复出原始网络所要学习的特征分布。

前三步是标准化工序，最后一步是反标准化工序。

Bn层的好处

1、加速网络的收敛速度。在神经网络中，存在内部协变量偏移的现象，如果每层的数据分布不同的话，会导致非常难收敛，如果把每层的数据都在转换在均值为零，方差为1的状态下，这样每层数据的分布都是一样的，训练会比较容易收敛。

2、防止梯度爆炸和梯度消失。对于梯度消失而言，以Sigmoid函数为例，它会使得输出在[0,1]之间，实际上当x到了一定的大小，sigmoid激活函数的梯度值就变得非常小，不易训练。归一化数据的话，就能让梯度维持在比较大的值和变化率；对于梯度爆炸而言，在方向传播的过程中，每一层的梯度都是由上一层的梯度乘以本层的数据得到。如果归一化的话，数据均值都在0附近，很显然，每一层的梯度不会产生爆炸的情况。

3、防止过拟合。在网络的训练中，Bn使得一个minibatch中所有样本都被关联在了一起，因此网络不会从某一个训练样本中生成确定的结果，这样就会使得整个网络不会朝这一个方向使劲学习。一定程度上避免了过拟合。

为什么要引入γ和β变量

Bn层在进行前三步后，会引入γ和β变量，对输入进来的数据进行缩放和平移。

γ和β变量是网络参数，是可学习的。

引入γ和β变量进行缩放平移可以使得神经网络有自适应的能力，在标准化效果好时，尽量不抵消标准化的作用，而在标准化效果不好时，尽量去抵消一部分标准化的效果，相当于让神经网络学会要不要标准化，如何折中选择。

Bn层的代码实现

Pytorch代码看起来比较简单，而且和上面的公式非常符合，可以学习一下，参考自

https://zhuanlan.zhihu.com/p/269465213：

def batch_norm(is_training, x, gamma, beta, moving_mean, moving_var, eps=1e-5, momentum=0.9):
    if not is_training:
        x_hat = (x - moving_mean) / torch.sqrt(moving_var + eps)
    else:
        mean = x.mean(dim=0, keepdim=True).mean(dim=2, keepdim=True).mean(dim=3, keepdim=True)
        var = ((x - mean) ** 2).mean(dim=0, keepdim=True).mean(dim=2, keepdim=True).mean(dim=3, keepdim=True)

        x_hat = (x - mean) / torch.sqrt(var + eps)
        moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
        moving_var = momentum * moving_var + (1.0 - momentum) * var
    Y = gamma * x_hat + beta
    return Y, moving_mean, moving_var

class BatchNorm2d(nn.Module):
    def __init__(self, num_features):
        super(BatchNorm2d, self).__init__()
        shape = (1, num_features, 1, 1)
        self.gamma = nn.Parameter(torch.ones(shape))
        self.beta = nn.Parameter(torch.zeros(shape))
        self.register_buffer('moving_mean', torch.zeros(shape))
        self.register_buffer('moving_var', torch.ones(shape))

    def forward(self, x):
        if self.moving_mean.device != x.device:
            self.moving_mean = self.moving_mean.to(x.device)
            self.moving_var = self.moving_var.to(x.device)

        y, self.moving_mean, self.moving_var = batch_norm(self.training,
            x, self.gamma, self.beta, self.moving_mean,
            self.moving_var, eps=1e-5, momentum=0.9)
        return y

以上就是python神经网络Batch Normalization底层原理详解的详细内容，更多关于Batch Normalization底层原理的资料请关注我们其它相关文章！

pytorch方法测试详解——归一化(BatchNorm2d)

测试代码: import torch import torch.nn as nn m = nn.BatchNorm2d(2,affine=True) #权重w和偏重将被使用 input = torch.randn(1,2,3,4) output = m(input) print("输入图片:") print(input) print("归一化权重:") print(m.weight) print("归一化的偏重:") print(m.bias)
TensorFlow实现Batch Normalization

一.BN(Batch Normalization)算法 1. 对数据进行归一化处理的重要性神经网络学习过程的本质就是学习数据分布,在训练数据与测试数据分布不同情况下,模型的泛化能力就大大降低:另一方面,若训练过程中每批batch的数据分布也各不相同,那么网络每批迭代学习过程也会出现较大波动,使之更难趋于收敛,降低训练收敛速度.对于深层网络,网络前几层的微小变化都会被网络累积放大,则训练数据的分布变化问题会被放大,更加影响训练速度. 2. BN算法的强大之处 1)为了加速梯度下降算法的训练,我们
解决Pytorch中Batch Normalization layer踩过的坑

1. 注意momentum的定义 Pytorch中的BN层的动量平滑和常见的动量法计算方式是相反的,默认的momentum=0.1 BN层里的表达式为: 其中γ和β是可以学习的参数.在Pytorch中,BN层的类的参数有: CLASS torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) 每个参数具体含义参见文档,需要注意的是,affine定义了BN层的
pytorch的batch normalize使用详解

torch.nn.BatchNorm1d() 1.BatchNorm1d(num_features, eps = 1e-05, momentum=0.1, affine=True) 对于2d或3d输入进行BN.在训练时,该层计算每次输入的均值和方差,并进行平行移动.移动平均默认的动量为0.1.在验证时,训练求得的均值/方差将用于标准化验证数据. num_features:表示输入的特征数.该期望输入的大小为'batch_size x num_features [x width]' Shape:
python神经网络Batch Normalization底层原理详解

目录什么是Batch Normalization Batch Normalization的计算公式 Bn层的好处为什么要引入γ和β变量 Bn层的代码实现什么是Batch Normalization Batch Normalization是神经网络中常用的层,解决了很多深度学习中遇到的问题,我们一起来学习一哈. Batch Normalization是由google提出的一种训练优化方法.参考论文:Batch Normalization Accelerating Deep Network T
python神经网络MobileNetV2模型的复现详解

目录什么是MobileNetV2模型 MobileNetV2网络部分实现代码图片预测什么是MobileNetV2模型 MobileNet它哥MobileNetV2也是很不错的呢 MobileNet模型是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络,其使用的核心思想便是depthwise separable convolution. MobileNetV2是MobileNet的升级版,它具有两个特征点: 1.Inverted residuals,在ResNet50里我们认识
python装饰器的特性原理详解

这篇文章主要介绍了python装饰器的特性原理详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下今天发现了装饰器的另一种用法,下面就先上代码: data_list = [] def data_item(func): data_list.append(func) return func @data_item def foo(): return 1 @data_item def foo1(): return 2 @data_item def fo
Python JSON编解码方式原理详解

这篇文章主要介绍了Python JSON编解码方式原理详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下概念 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写.在日常的工作中,应用范围极其广泛.这里就介绍python下它的两种编解码方法: 使用json函数使用 JSON 函数需要导入 json 库:import json.函数含义: 源码解析: # coding= utf-8 #
Redis RDB技术底层原理详解

每日一句低头是一种能力,它不是自卑,也不是怯弱,它是清醒中的嬗变.有时,稍微低一下头,或者我们的人生路会更精彩. 前提概要 Redis是一个的键-值(K-V)对的内存数据库服务,通常包含了任意个非空数据库.而每个非空的键值数据库中又可以存放任意个K-V,基本的结构如下图所示: Redis的强劲性能很大程度上是由于其将所有数据都存储在了内存中,为了使Redis在重启之后仍能保证数据不丢失,需要将数据从内存中以某种形式同步到硬盘中,这一过程就是持久化. 我们知道redis中缓存的数据都存放在内存中
Java并发编程深入理解之Synchronized的使用及底层原理详解下

目录一.synchronized锁优化 1.自旋锁与自适应自旋 2.锁消除逃逸分析: 3.锁粗化二.对象头内存布局三.synchronized锁的膨胀升级过程 1.偏向锁 2.轻量级锁 3.重量级锁 4.各种锁的优缺点接着上文<Java并发编程深入理解之Synchronized的使用及底层原理详解上>继续介绍synchronized 一.synchronized锁优化高效并发是从JDK 5升级到JDK 6后一项重要的改进项,HotSpot虚拟机开发团队在这个版本上花费了大量的资源
Java并发编程深入理解之Synchronized的使用及底层原理详解上

目录一.线程安全问题 1.临界资源 2.线程安全问题 3.如何解决线程安全问题二.synchronized使用介绍三.synchronized实现原理 1.synchronized底层指令:monitorenter和monitorexit 2.Object Monitor(监视器锁)机制一.线程安全问题 1.临界资源多线程编程中,有可能会出现多个线程同时访问同一个共享.可变资源的情况,这个资源我们称之其为临界资源:这种资源可能是:对象.变量.文件等. 共享:资源可以由多个线程同时访问
Python学习之直方图均衡化原理详解

目录 1.点算子 2.线性灰度变换 3.直方图均衡化 4.代码实战 1.点算子点算子是两个像素灰度值间的映射关系,属于像素的逐点运算,相邻像素不参与运算.点算子是最简单的图像处理手段,如:亮度调整.对比度调整.颜色变换.直方图均衡化等等. 2.线性灰度变换线性灰度变换表达为: 其中rk.sk分别为输入.输出点像素灰度值. ▲图2.1 线性灰度变换当a>1时,输出图像像素灰度范围扩大,图像对比度增强,当a<1时反之.这是因为人眼不易区分相近的灰度值,因此若图像灰度值范围较小,观感上细节不够
python神经网络ResNet50模型的复现详解

目录什么是残差网络什么是ResNet50模型 ResNet50网络部分实现代码图片预测什么是残差网络最近看yolo3里面讲到了残差网络,对这个网络结构很感兴趣,于是了解到这个网络结构最初的使用是在ResNet网络里. Residual net(残差网络): 将靠前若干层的某一层数据输出直接跳过多层引入到后面数据层的输入部分. 意味着后面的特征层的内容会有一部分由其前面的某一层线性贡献. 其结构如下: 深度残差网络的设计是为了克服由于网络深度加深而产生的学习效率变低与准确率无法有效提升的
python神经网络MobileNet模型的复现详解

目录什么是MobileNet模型 MobileNet网络部分实现代码图片预测什么是MobileNet模型 MobileNet是一种轻量级网络,相比于其它结构网络,它不一定是最准的,但是它真的很轻 MobileNet模型是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络,其使用的核心思想便是depthwise separable convolution. 对于一个卷积点而言: 假设有一个3×3大小的卷积层,其输入通道为16.输出通道为32.具体为,32个3×3大小的卷积核会遍历