pytorch中使用LSTM详解

2025-04-04 13:09:00

LSMT层

可以在troch.nn模块中找到LSTM类

lstm = torch.nn.LSTM(*paramsters)

1、init方法

首先对nn.LSTM类进行实例化，需要传入的参数如下图所示：

一般我们关注这4个：

input_size表示输入的每个token的维度，也可以理解为一个word的embedding的维度。
hidden_size表示隐藏层也就是记忆单元C的维度，也可以理解为要将一个word的embedding维度转变成另一个大小的维度。除了C，在LSTM中输出的H的维度与C的维度是一致的。
num_layers表示有多少层LSTM，加深网络的深度，这个参数对LSTM的输出的维度是有影响的（后文会提到）。
bidirectional表示是否需要双向LSTM，这个参数也会对后面的输出有影响。

2、forward方法的输入

将数据input传入forward方法进行前向传播时有3个参数可以输入，见下图：

这里要注意的是input参数各个维度的意义，一般来说如果不在实例化时制定batch_first=True,那么input的第一个维度是输入句子的长度seq_len，第二个维度是批量的大小，第三个维度是输入句子的embedding维度也就是input_size，这个参数要与__init__方法中的第一个参数对应。
另外记忆细胞中的两个参数h_0和c_0可以选择自己初始化传入也可以不传，系统默认是都初始化为0。传入的话注意维度[bidirectional * num_layers, batch_size, hidden_size]。

3、forward方法的输出

forward方法的输出如下图所示：

一般采用如下形式：

out,(h_n, c_n) = lstm(x)

out表示在最后一层上，每一个时间步的输出，也就是句子有多长，这个out的输出就有多长；其维度为[seq_len, batch_size, hidden_size * bidirectional]。因为如果的双向LSTM，最后一层的输出会把正向的和反向的进行拼接，故需要hidden_size * bidirectional。h_n表示的是每一层（双向算两层）在最后一个时间步上的输出；其维度为[bidirectional * num_layers, batch_size, hidden_size]
假设是双向的LSTM，且是3层LSTM，双向每个方向算一层，两个方向的组合起来叫一层LSTM，故共会有6层（3个正向，3个反向）。所以h_n是每层的输出，bidirectional * num_layers = 6。c_n表示的是每一层（双向算两层）在最后一个时间步上的记忆单元，意义不同，但是其余均与 h_n一样。

LSTMCell

可以在troch.nn模块中找到LSTMCell类

lstm = torch.nn.LSTMCell(*paramsters)

它的__init__方法的参数设置与LSTM类似，但是没有num_layers参数，因为这就是一个细胞单元，谈不上多少层和是否双向。
forward的输入和输出与LSTM均有所不同：

其相比LSTM，输入没有了时间步的概念，因为只有一个Cell单元；输出也没有out参数，因为就一个Cell，out就是h_1，h_1和c_1也因为只有一个Cell单元，其没有层数上的意义，故只是一个Cell的输出的维度[batch_size, hidden_size].

代码演示如下：

rnn = nn.LSTMCell(10, 20) # (input_size, hidden_size)
input = torch.randn(2, 3, 10) # (time_steps, batch, input_size)
hx = torch.randn(3, 20) # (batch, hidden_size)
cx = torch.randn(3, 20)
output = []
# 从输入的第一个维度也就是seq_len上遍历，每循环一次，输入一个单词
for i in range(input.size()[0]):
		# 更新细胞记忆单元
        hx, cx = rnn(input[i], (hx, cx))
        # 将每个word作为输入的输出存起来，相当于LSTM中的out
        output.append(hx)
output = torch.stack(output, dim=0)

到此这篇关于pytorch中使用LSTM详细解说的文章就介绍到这了,更多相关pytorch使用LSTM内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

基于pytorch的lstm参数使用详解

lstm(*input, **kwargs) 将多层长短时记忆(LSTM)神经网络应用于输入序列. 参数: input_size:输入'x'中预期特性的数量 hidden_size:隐藏状态'h'中的特性数量 num_layers:循环层的数量.例如,设置' ' num_layers=2 ' '意味着将两个LSTM堆叠在一起,形成一个'堆叠的LSTM ',第二个LSTM接收第一个LSTM的输出并计算最终结果.默认值:1 bias:如果' False',则该层不使用偏置权重' b_ih '和' b
pytorch 如何使用batch训练lstm网络

batch的lstm # 导入相应的包 import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim import torch.utils.data as Data torch.manual_seed(1) # 准备数据的阶段 def prepare_sequence(seq, to_ix): idxs = [to_ix[w] for w in seq] return
pytorch下使用LSTM神经网络写诗实例

在pytorch下,以数万首唐诗为素材,训练双层LSTM神经网络,使其能够以唐诗的方式写诗. 代码结构分为四部分,分别为 1.model.py,定义了双层LSTM模型 2.data.py,定义了从网上得到的唐诗数据的处理方法 3.utlis.py 定义了损失可视化的函数 4.main.py定义了模型参数,以及训练.唐诗生成函数. 参考:电子工业出版社的<深度学习框架PyTorch:入门与实践>第九章 main代码及注释如下 import sys, os import torch as t fr
pytorch中使用LSTM详解

目录 LSMT层 1.__init__方法 2.forward方法的输入 3.forward方法的输出 LSTMCell LSMT层可以在troch.nn模块中找到LSTM类 lstm = torch.nn.LSTM(*paramsters) 1.__init__方法首先对nn.LSTM类进行实例化,需要传入的参数如下图所示: 一般我们关注这4个: input_size表示输入的每个token的维度,也可以理解为一个word的embedding的维度. hidden_size表示隐藏层也就是
Broadcast广播机制在Pytorch Tensor Numpy中的使用详解

目录 1.什么是广播机制 2.广播机制的规则 3.代码举例 4.原地操作 1.什么是广播机制根据线性代数的运算规则我们知道,矩阵运算往往都是在两个矩阵维度相同或者相匹配时才能运算.比如加减法需要两个矩阵的维度相同,乘法需要前一个矩阵的列数与后一个矩阵的行数相等.那么在 numpy.tensor 里也是同样的道理,但是在机器学习的某些算法中会出现两个维度不相同也不匹配的矩阵进行运算,那么这时候就需要用广播机制来解决,通过广播机制,其tensor参数可以自动扩展为相等大小(不需要复制数据).下面我
pytorch AvgPool2d函数使用详解

我就废话不多说了,直接上代码吧! import torch import torch.nn as nn import torch.nn.functional as F from torch.autograd import Variable import numpy as np input = Variable(torch.Tensor([[[1, 3, 3, 4, 5, 6, 7], [1, 2, 3, 4, 5, 6, 7]], [[1, 3, 3, 4, 5, 6, 7], [1, 2, 3
pytorch之ImageFolder使用详解

pytorch之ImageFolder torchvision已经预先实现了常用的Dataset,包括前面使用过的CIFAR-10,以及ImageNet.COCO.MNIST.LSUN等数据集,可通过诸如torchvision.datasets.CIFAR10来调用.在这里介绍一个会经常使用到的Dataset--ImageFolder. ImageFolder假设所有的文件按文件夹保存,每个文件夹下存储同一个类别的图片,文件夹名为类名,其构造函数如下: ImageFolder(root, tra
pytorch 限制GPU使用效率详解(计算效率)

问题用过 tensorflow 的人都知道, tf 可以限制程序在 GPU 中的使用效率,但 pytorch 中没有这个操作. 思路于是我想到了一个代替方法,玩过单片机点灯的同学都知道,灯的亮度是靠占空比实现的,这实际上也是计算机的运行原理. 那我们是不是也可以通过增加 GPU 不工作的时间,进而降低 GPU 的使用效率 ? 主要代码 import time ... rest_time = 0.15 ... for _ in range( XXX ): ... outputs = all_G
Pytorch自动求导函数详解流程以及与TensorFlow搭建网络的对比

一.定义新的自动求导函数在底层,每个原始的自动求导运算实际上是两个在Tensor上运行的函数.其中,forward函数计算从输入Tensor获得的输出Tensors.而backward函数接收输出,Tensors对于某个标量值得梯度,并且计算输入Tensors相对于该相同标量值得梯度. 在Pytorch中,可以容易地通过定义torch.autograd.Function的子类实现forward和backward函数,来定义自动求导函数.之后就可以使用这个新的自动梯度运算符了.我们可以通过构造一
Python人工智能学习PyTorch实现WGAN示例详解

目录 1.GAN简述 2.生成器模块 3.判别器模块 4.数据生成模块 5.判别器训练 6.生成器训练 7.结果可视化 1.GAN简述在GAN中,有两个模型,一个是生成模型,用于生成样本,一个是判别模型,用于判断样本是真还是假.但由于在GAN中,使用的JS散度去计算损失值,很容易导致梯度弥散的情况,从而无法进行梯度下降更新参数,于是在WGAN中,引入了Wasserstein Distance,使得训练变得稳定.本文中我们以服从高斯分布的数据作为样本. 2.生成器模块这里从2维数据,最终生成2
人工智能学习Pytorch张量数据类型示例详解

目录 1.python 和 pytorch的数据类型区别 2.张量 ①一维张量 ②二维张量 ③3维张量 ④4维张量 1.python 和 pytorch的数据类型区别在PyTorch中无法展示字符串,因此表达字符串,需要将其转换成编码的类型,比如one_hot,word2vec等. 2.张量在python中,会有标量,向量,矩阵等的区分.但在PyTorch中,这些统称为张量tensor,只是维度不同而已. 标量就是0维张量,只有一个数字,没有维度. 向量就是1维张量,是有顺序的数字,但没有"
Java中的静态内部类详解及代码示例

1. 什么是静态内部类在Java中有静态代码块.静态变量.静态方法,当然也有静态类,但Java中的静态类只能是Java的内部类,也称为静态嵌套类.静态内部类的定义如下: public class OuterClass { static class StaticInnerClass { ... } } 在介绍静态内部类之前,首先要弄清楚静态内部类与Java其它内部类的区别. 2. 内部类什么是内部类?将一个类的定义放在另一个类的内部,就是内部类.Java的内部类主要分为成员内部类.局部内部类.
Mysql中explain作用详解

一.MYSQL的索引索引(Index):帮助Mysql高效获取数据的一种数据结构.用于提高查找效率,可以比作字典.可以简单理解为排好序的快速查找的数据结构. 索引的作用:便于查询和排序(所以添加索引会影响where 语句与 order by 排序语句). 在数据之外,数据库还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用数据.这样就可以在这些数据结构上实现高级查找算法.这些数据结构就是索引. 索引本身也很大,不可能全部存储在内存中,所以索引往往以索引文件的形式存储在磁盘上. 我们

pytorch中使用LSTM详解

目录

LSMT层

1、__init__方法

2、forward方法的输入

3、forward方法的输出

LSTMCell

相关推荐

随机推荐

1、init方法