Broadcast广播机制在Pytorch Tensor Numpy中的使用详解

2025-10-13 15:26:55

1.什么是广播机制

根据线性代数的运算规则我们知道，矩阵运算往往都是在两个矩阵维度相同或者相匹配时才能运算。比如加减法需要两个矩阵的维度相同，乘法需要前一个矩阵的列数与后一个矩阵的行数相等。那么在 numpy、tensor 里也是同样的道理，但是在机器学习的某些算法中会出现两个维度不相同也不匹配的矩阵进行运算，那么这时候就需要用广播机制来解决，通过广播机制，其tensor参数可以自动扩展为相等大小（不需要复制数据）。下面我们以tensor为例来解释什么是广播机制。

2.广播机制的规则

先来说下广播机制的规则，只有遵循下面的规则两个张量才可以进行广播运算。

每个tensor至少有一个维度；

遍历tensor所有维度时，从末尾开始遍历（从右往左开始遍历)，两个tensor存在下列情况

tensor维度相等。

tensor维度不等且其中一个维度为1或者不存在。

满足上面的条件才可以进行广播机制。

3.代码举例

相同维度，一定可以 broadcast：

import torch
x = torch.rand(1, 2, 3)
y = torch.rand(1, 2, 3)
z = x + y
print(x.shape)
print(y.shape)
print(z.shape)
print(x)
print(y)
print(z)

输出结果如下：

torch.Size([1, 2, 3])
torch.Size([1, 2, 3])
torch.Size([1, 2, 3])
tensor([[[0.0322, 0.2378, 0.4711],
[0.9191, 0.0802, 0.4002]]])
tensor([[[0.5645, 0.9541, 0.3089],
[0.7633, 0.7400, 0.7507]]])
tensor([[[0.5966, 1.1919, 0.7800],
[1.6825, 0.8202, 1.1509]]])

有一个张量没有维度，一定不可以进行 broadcast：

import torch
x = torch.rand(0)
y = torch.rand(1, 2, 3)
print(x.shape)
print(y.shape)
z = x + y
print(z.shape)
print(x)
print(y)
print(z)

输出结果：

torch.Size([0])
torch.Size([1, 2, 3])
Traceback (most recent call last):
File "D:/program/Test/broadcast/test.py", line 8, in <module>
z = x + y
RuntimeError: The size of tensor a (0) must match the size of tensor b (3) at non-singleton dimension 2

有一个张量缺少维度，一定可以进行 broadcast：

import torch
x = torch.rand(1, 2, 3, 4)
y = torch.rand(2, 3, 4)
print(x.shape)
print(y.shape)
z = x + y
print(z.shape)
print(x)
print(y)
print(z)

输出结果：

torch.Size([1, 2, 3, 4])
torch.Size([2, 3, 4])
torch.Size([1, 2, 3, 4])
tensor([[[[0.0094, 0.1863, 0.2657, 0.3782],
[0.3296, 0.7454, 0.2080, 0.4156],
[0.2092, 0.5414, 0.1053, 0.3872]],

[[0.8161, 0.3554, 0.7352, 0.2116],
[0.7459, 0.1662, 0.7555, 0.4548],
[0.2611, 0.0353, 0.1862, 0.5948]]]])
tensor([[[0.4637, 0.3938, 0.2039, 0.3892],
[0.4146, 0.8713, 0.3947, 0.5345],
[0.2401, 0.3800, 0.3747, 0.8381]],

[[0.0459, 0.1242, 0.3529, 0.1527],
[0.2361, 0.2850, 0.8671, 0.8040],
[0.6575, 0.4075, 0.8156, 0.2638]]])
tensor([[[[0.4730, 0.5801, 0.4695, 0.7674],
[0.7442, 1.6167, 0.6027, 0.9501],
[0.4493, 0.9214, 0.4800, 1.2253]],

[[0.8620, 0.4796, 1.0881, 0.3643],
[0.9820, 0.4512, 1.6227, 1.2588],
[0.9186, 0.4428, 1.0018, 0.8586]]]])

上面的张量y跟张量x相比缺少一个维度，根据广播机制的规则我们从最后一个维度进行匹配，后面三个维度都一样，张量y的缺少一个维度，于是触发广播机制。

两个张量的维度不相等，其中有一个张量的对应维度为1或者缺失，一定可以进行 broadcast：

import torch
x = torch.rand(1, 2, 3, 4)
y = torch.rand(2, 1, 1)
print(x.shape)
print(y.shape)
z = x + y
print(z.shape)
print(x)
print(y)
print(z)

输出结果：

torch.Size([1, 2, 3, 4])
torch.Size([2, 1, 1])
torch.Size([1, 2, 3, 4])
tensor([[[[0.8670, 0.0134, 0.7929, 0.4109],
[0.3595, 0.8457, 0.2819, 0.8470],
[0.5040, 0.9281, 0.9161, 0.7305]],

[[0.3798, 0.3866, 0.4680, 0.5744],
[0.6984, 0.6501, 0.2235, 0.3099],
[0.9861, 0.8598, 0.7635, 0.3238]]]])
tensor([[[0.3393]],

[[0.1775]]])
tensor([[[[1.2062, 0.3527, 1.1322, 0.7501],
[0.6987, 1.1850, 0.6212, 1.1863],
[0.8433, 1.2674, 1.2554, 1.0698]],

[[0.5574, 0.5641, 0.6455, 0.7519],
[0.8759, 0.8276, 0.4010, 0.4875],
[1.1636, 1.0373, 0.9410, 0.5013]]]])

以上就是广播机制的操作，只要记住几个规则就行了，注意tensor在进行运算的时候是从后往前匹配运算的。

4.原地操作

在进行广播机制的时候我们要注意一个原地操作运算，什么是原地操作运算？原地操作运算就是指改变一个tensor的值的时候，不经过复制操作，而是直接在原来的内存上改变它的值。在pytorch中经常加后缀“”来代表原地操作符，例：.add _()、.scatter()，原地操作不允许tensor使用广播机制那样来改变张量形状维度大小，如下例子所示。

import torch
x = torch.rand(1,3,1)
y = torch.rand(3,1,7)
print(x.shape)
print(y.shape)
z = x.add_(y)
print(z.shape)
print(x)
print(y)
print(z)

输出结果：

torch.Size([1, 3, 1])
torch.Size([3, 1, 7])
Traceback (most recent call last):
File "D:/program/Test/broadcast/test.py", line 8, in <module>
z = x.add_(y)
RuntimeError: output with shape [1, 3, 1] doesn't match the broadcast shape [3, 3, 7]

到此这篇关于Broadcast广播机制在Pytorch Tensor Numpy中的使用详解的文章就介绍到这了,更多相关Pytorch Broadcast内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

深入解析NumPy中的Broadcasting广播机制

前言在吴恩达老师的深度学习专项课程中,老师有提到NumPy中的广播机制,同时那一周的测验也有涉及到广播机制的题目.那么,到底什么是NumPy中的广播机制? 官方文档接下来到了看官方文档的时间. Array Broadcasting in Numpy 广播机制概述让我们探索numpy中一个更高级的概念,这个概念被称为广播. 广播展现了NumPy在算术运算期间是如何处理具有不同形状的数组的. 受到某些约束,较小的阵列将在较大的阵列上"广播",以使它们具有相同形状. 广播提供了一种数组
探秘TensorFlow 和 NumPy 的 Broadcasting 机制

在使用Tensorflow的过程中,我们经常遇到数组形状不同的情况,但有时候发现二者还能进行加减乘除的运算,在这背后,其实是Tensorflow的broadcast即广播机制帮了大忙.而Tensorflow中的广播机制其实是效仿的numpy中的广播机制.本篇,我们就来一同研究下numpy和Tensorflow中的广播机制. 1.numpy广播原理 1.1 数组和标量计算时的广播标量和数组合并时就会发生简单的广播,标量会和数组中的每一个元素进行计算. 举个例子: arr = np.arange(
Broadcast广播机制在Pytorch Tensor Numpy中的使用详解

目录 1.什么是广播机制 2.广播机制的规则 3.代码举例 4.原地操作 1.什么是广播机制根据线性代数的运算规则我们知道,矩阵运算往往都是在两个矩阵维度相同或者相匹配时才能运算.比如加减法需要两个矩阵的维度相同,乘法需要前一个矩阵的列数与后一个矩阵的行数相等.那么在 numpy.tensor 里也是同样的道理,但是在机器学习的某些算法中会出现两个维度不相同也不匹配的矩阵进行运算,那么这时候就需要用广播机制来解决,通过广播机制,其tensor参数可以自动扩展为相等大小(不需要复制数据).下面我
Pytorch之view及view_as使用详解

view()函数是在torch.Tensor.view()下的一个函数,可以有tensor调用,也可以有variable调用. 其作用在于返回和原tensor数据个数相同,但size不同的tensor [Numpy中的size是元素个数,但是在Pytorch中size等价为Numpy中的shape] view函数的-1参数的作用在于基于另一参数,自动计算该维度的大小很重要的一点 view函数只能由于contiguous的张量上,具体而言,就是在内存中连续存储的张量. 具体而言,可以参看 htt
Pytorch 多块GPU的使用详解

注:本文针对单个服务器上多块GPU的使用,不是多服务器多GPU的使用. 在一些实验中,由于Batch_size的限制或者希望提高训练速度等原因,我们需要使用多块GPU.本文针对Pytorch中多块GPU的使用进行说明. 1. 设置需要使用的GPU编号 import os os.environ["CUDA_VISIBLE_DEVICES"] = "0,4" ids = [0,1] 比如我们需要使用第0和第4块GPU,只用上述三行代码即可. 其中第二行指程序只能看到第1
Pytorch 的损失函数Loss function使用详解

1.损失函数损失函数,又叫目标函数,是编译一个神经网络模型必须的两个要素之一.另一个必不可少的要素是优化器. 损失函数是指用于计算标签值和预测值之间差异的函数,在机器学习过程中,有多种损失函数可供选择,典型的有距离向量,绝对值向量等. 损失Loss必须是标量,因为向量无法比较大小(向量本身需要通过范数等标量来比较). 损失函数一般分为4种,平方损失函数,对数损失函数,HingeLoss 0-1 损失函数,绝对值损失函数. 我们先定义两个二维数组,然后用不同的损失函数计算其损失值. import
关于Pytorch的MNIST数据集的预处理详解

关于Pytorch的MNIST数据集的预处理详解 MNIST的准确率达到99.7% 用于MNIST的卷积神经网络(CNN)的实现,具有各种技术,例如数据增强,丢失,伪随机化等. 操作系统:ubuntu18.04 显卡:GTX1080ti python版本:2.7(3.7) 网络架构具有4层的CNN具有以下架构. 输入层:784个节点(MNIST图像大小) 第一卷积层:5x5x32 第一个最大池层第二卷积层:5x5x64 第二个最大池层第三个完全连接层:1024个节点输出层:10个节点(M
PyTorch里面的torch.nn.Parameter()详解

在看过很多博客的时候发现了一个用法self.v = torch.nn.Parameter(torch.FloatTensor(hidden_size)),首先可以把这个函数理解为类型转换函数,将一个不可训练的类型Tensor转换成可以训练的类型parameter并将这个parameter绑定到这个module里面(net.parameter()中就有这个绑定的parameter,所以在参数优化的时候可以进行优化的),所以经过类型转换这个self.v变成了模型的一部分,成为了模型中根据训练可以改动
Pytorch对Himmelblau函数的优化详解

Himmelblau函数如下: 有四个全局最小解,且值都为0,这个函数常用来检验优化算法的表现如何: 可视化函数图像: import numpy as np from matplotlib import pyplot as plt from mpl_toolkits.mplot3d import Axes3D def himmelblau(x): return (x[0] ** 2 + x[1] - 11) ** 2 + (x[0] + x[1] ** 2 - 7) ** 2 x = np.ar
pytorch 网络参数 weight bias 初始化详解

权重初始化对于训练神经网络至关重要,好的初始化权重可以有效的避免梯度消失等问题的发生. 在pytorch的使用过程中有几种权重初始化的方法供大家参考. 注意:第一种方法不推荐.尽量使用后两种方法. # not recommend def weights_init(m): classname = m.__class__.__name__ if classname.find('Conv') != -1: m.weight.data.normal_(0.0, 0.02) elif classname.
PyTorch实现卷积神经网络的搭建详解

目录 PyTorch中实现卷积的重要基础函数 1.nn.Conv2d: 2.nn.MaxPool2d(kernel_size=2) 3.nn.ReLU() 4.x.view() 全部代码 PyTorch中实现卷积的重要基础函数 1.nn.Conv2d: nn.Conv2d在pytorch中用于实现卷积. nn.Conv2d( in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1, ) 1.in_channels为输
Mybatis中 XML配置详解

Mybatis常用带有禁用缓存的XML配置 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd" > <configuration> <

Broadcast广播机制在Pytorch Tensor Numpy中的使用详解

目录

1.什么是广播机制

2.广播机制的规则

3.代码举例

4.原地操作

相关推荐

随机推荐