PyTorch搭建双向LSTM实现时间序列负荷预测

2025-01-30 17:09:01

I. 前言

前面几篇文章中介绍的都是单向LSTM，这篇文章讲一下双向LSTM。

系列文章：

PyTorch搭建LSTM实现多变量多步长时序负荷预测

PyTorch搭建LSTM实现多变量时序负荷预测

PyTorch深度学习LSTM从input输入到Linear输出

PyTorch搭建LSTM实现时间序列负荷预测

II. 原理

关于LSTM的输入输出在深入理解PyTorch中LSTM的输入和输出（从input输入到Linear输出）中已经有过详细叙述。

关于nn.LSTM的参数，官方文档给出的解释为：

总共有七个参数，其中只有前三个是必须的。由于大家普遍使用PyTorch的DataLoader来形成批量数据，因此batch_first也比较重要。LSTM的两个常见的应用场景为文本处理和时序预测，因此下面对每个参数我都会从这两个方面来进行具体解释。

input_size：在文本处理中，由于一个单词没法参与运算，因此我们得通过Word2Vec来对单词进行嵌入表示，将每一个单词表示成一个向量，此时input_size=embedding_size。
比如每个句子中有五个单词，每个单词用一个100维向量来表示，那么这里input_size=100；
在时间序列预测中，比如需要预测负荷，每一个负荷都是一个单独的值，都可以直接参与运算，因此并不需要将每一个负荷表示成一个向量，此时input_size=1。
但如果我们使用多变量进行预测，比如我们利用前24小时每一时刻的[负荷、风速、温度、压强、湿度、天气、节假日信息]来预测下一时刻的负荷，那么此时input_size=7。
hidden_size：隐藏层节点个数。可以随意设置。
num_layers：层数。nn.LSTMCell与nn.LSTM相比，num_layers默认为1。
batch_first：默认为False，意义见后文。

Inputs

关于LSTM的输入，官方文档给出的定义为：

可以看到，输入由两部分组成：input、(初始的隐状态h_0，初始的单元状态c_0)

其中input：

input(seq_len, batch_size, input_size)

seq_len：在文本处理中，如果一个句子有7个单词，则seq_len=7；在时间序列预测中，假设我们用前24个小时的负荷来预测下一时刻负荷，则seq_len=24。
batch_size：一次性输入LSTM中的样本个数。在文本处理中，可以一次性输入很多个句子；在时间序列预测中，也可以一次性输入很多条数据。
input_size：见前文。

(h_0, c_0)：

h_0(num_directions * num_layers, batch_size, hidden_size)
c_0(num_directions * num_layers, batch_size, hidden_size)

h_0和c_0的shape一致。

num_directions：如果是双向LSTM，则num_directions=2；否则num_directions=1。
num_layers：见前文。
batch_size：见前文。
hidden_size：见前文。

Outputs

关于LSTM的输出，官方文档给出的定义为：

可以看到，输出也由两部分组成：otput、(隐状态h_n，单元状态c_n)

其中output的shape为：

output(seq_len, batch_size, num_directions * hidden_size)

h_n和c_n的shape保持不变，参数解释见前文。

batch_first

如果在初始化LSTM时令batch_first=True，那么input和output的shape将由：

input(seq_len, batch_size, input_size)
output(seq_len, batch_size, num_directions * hidden_size)

变为：

input(batch_size, seq_len, input_size)
output(batch_size, seq_len, num_directions * hidden_size)

即batch_size提前。

输出提取

假设最后我们得到了output(batch_size, seq_len, 2 * hidden_size)，我们需要将其输入到线性层，有以下两种方法可以参考：

（1）直接输入

和单向一样，我们可以将output直接输入到Linear。在单向LSTM中：

self.linear = nn.Linear(self.hidden_size, self.output_size)

而在双向LSTM中：

self.linear = nn.Linear(2 * self.hidden_size, self.output_size)

模型：

class BiLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size, batch_size):
        super().__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.output_size = output_size
        self.num_directions = 2
        self.batch_size = batch_size
        self.lstm = nn.LSTM(self.input_size, self.hidden_size, self.num_layers, batch_first=True, bidirectional=True)
        self.linear = nn.Linear(self.num_directions * self.hidden_size, self.output_size)
    def forward(self, input_seq):
        h_0 = torch.randn(self.num_directions * self.num_layers, self.batch_size, self.hidden_size).to(device)
        c_0 = torch.randn(self.num_directions * self.num_layers, self.batch_size, self.hidden_size).to(device)
        # print(input_seq.size())
        seq_len = input_seq.shape[1]
        # input(batch_size, seq_len, input_size)
        input_seq = input_seq.view(self.batch_size, seq_len, self.input_size)
        # output(batch_size, seq_len, num_directions * hidden_size)
        output, _ = self.lstm(input_seq, (h_0, c_0))
        # print(self.batch_size * seq_len, self.hidden_size)
        output = output.contiguous().view(self.batch_size * seq_len, self.num_directions * self.hidden_size)  # (5 * 30, 64)
        pred = self.linear(output)  # pred()
        pred = pred.view(self.batch_size, seq_len, -1)
        pred = pred[:, -1, :]
        return pred

（2）处理后再输入

在LSTM中，经过线性层后的output的shape为(batch_size, seq_len, output_size)。假设我们用前24个小时(1 to 24)预测后2个小时的负荷(25 to 26)，那么seq_len=24, output_size=2。根据LSTM的原理，最终的输出中包含了所有位置的预测值，也就是((2 3), (3 4), (4 5)…(25 26))。很显然我们只需要最后一个预测值，即output[:, -1, :]。

而在双向LSTM中，一开始output(batch_size, seq_len, 2 * hidden_size)，这里面包含了所有位置的两个方向的输出。简单来说，output[0]为序列从左往右第一个隐藏层状态输出和序列从右往左最后一个隐藏层状态输出的拼接；output[-1]为序列从左往右最后一个隐藏层状态输出和序列从右往左第一个隐藏层状态输出的拼接。

如果我们想要同时利用前向和后向的输出，我们可以将它们从中间切割，然后求平均。比如output的shape为(30, 24, 2 * 64)，我们将其变成(30, 24, 2, 64)，然后在dim=2上求平均，得到一个shape为(30, 24, 64)的输出，此时就与单向LSTM的输出一致了。

具体处理方法：

output = output.contiguous().view(self.batch_size, seq_len, self.num_directions, self.hidden_size)
output = torch.mean(output, dim=2)

模型代码：

class BiLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size, batch_size):
        super().__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.output_size = output_size
        self.num_directions = 2
        self.batch_size = batch_size
        self.lstm = nn.LSTM(self.input_size, self.hidden_size, self.num_layers, batch_first=True, bidirectional=True)
        self.linear = nn.Linear(self.hidden_size, self.output_size)
    def forward(self, input_seq):
        h_0 = torch.randn(self.num_directions * self.num_layers, self.batch_size, self.hidden_size).to(device)
        c_0 = torch.randn(self.num_directions * self.num_layers, self.batch_size, self.hidden_size).to(device)
        # print(input_seq.size())
        seq_len = input_seq.shape[1]
        # input(batch_size, seq_len, input_size)
        input_seq = input_seq.view(self.batch_size, seq_len, self.input_size)
        # output(batch_size, seq_len, num_directions * hidden_size)
        output, _ = self.lstm(input_seq, (h_0, c_0))
        output = output.contiguous().view(self.batch_size, seq_len, self.num_directions, self.hidden_size)
        output = torch.mean(output, dim=2)
        pred = self.linear(output)
        # print('pred=', pred.shape)
        pred = pred.view(self.batch_size, seq_len, -1)
        pred = pred[:, -1, :]
        return pred

III. 训练和预测

数据处理、训练以及预测同前面几篇文章。

这里对单步长多变量的预测进行对比，在其他条件保持一致的情况下，得到的实验结果如下所示：

方法LSTMBiLSTM(1)BiLSTM(2)MAPE7.439.299.29

可以看到，仅针对我所使用的数据而言，单向LSTM的效果更好。对于前面提到的两种方法，貌似差异不大。

IV. 源码及数据

源码及数据我放在了GitHub上，LSTM-Load-Forecasting

以上就是PyTorch搭建双向LSTM实现时间序列负荷预测的详细内容，更多关于双向LSTM时序负荷预测的资料请关注我们其它相关文章！

pytorch 利用lstm做mnist手写数字识别分类的实例

代码如下,U我认为对于新手来说最重要的是学会rnn读取数据的格式. # -*- coding: utf-8 -*- """ Created on Tue Oct 9 08:53:25 2018 @author: www """ import sys sys.path.append('..') import torch import datetime from torch.autograd import Variable from torch im
pytorch下使用LSTM神经网络写诗实例

在pytorch下,以数万首唐诗为素材,训练双层LSTM神经网络,使其能够以唐诗的方式写诗. 代码结构分为四部分,分别为 1.model.py,定义了双层LSTM模型 2.data.py,定义了从网上得到的唐诗数据的处理方法 3.utlis.py 定义了损失可视化的函数 4.main.py定义了模型参数,以及训练.唐诗生成函数. 参考:电子工业出版社的<深度学习框架PyTorch:入门与实践>第九章 main代码及注释如下 import sys, os import torch as t fr
pytorch实现用CNN和LSTM对文本进行分类方式

model.py: #!/usr/bin/python # -*- coding: utf-8 -*- import torch from torch import nn import numpy as np from torch.autograd import Variable import torch.nn.functional as F class TextRNN(nn.Module): """文本分类,RNN模型""" def __ini
Pytorch 如何实现LSTM时间序列预测

开发环境说明: Python 35 Pytorch 0.2 CPU/GPU均可 1.LSTM简介人类在进行学习时,往往不总是零开始,学习物理你会有数学基础.学习英语你会有中文基础等等. 于是对于机器而言,神经网络的学习亦可不再从零开始,于是出现了Transfer Learning,就是把一个领域已训练好的网络用于初始化另一个领域的任务,例如会下棋的神经网络可以用于打德州扑克. 我们这讲的是另一种不从零开始学习的神经网络--循环神经网络(Recurrent Neural Network, RNN
Tensorflow与RNN、双向LSTM等的踩坑记录及解决

1.tensorflow(不定长)文本序列读取与解析 tensorflow读取csv时需要指定各列的数据类型. 但是对于RNN这种接受序列输入的模型来说,一条序列的长度是不固定.这时如果使用csv存储序列数据,应当首先将特征序列拼接成一列. 例如两条数据序列,第一项是标签,之后是特征序列 [0, 1.1, 1.2, 2.3] 转换成 [0, '1.1_1.2_2.3'] [1, 1.0, 2.5, 1.6, 3.2, 4.5] 转换成 [1, '1.0_2.5_1.6_3.2_4.5'] 这样每
PyTorch搭建双向LSTM实现时间序列负荷预测

目录 I. 前言 II. 原理 Inputs Outputs batch_first 输出提取 III. 训练和预测 IV. 源码及数据 I. 前言前面几篇文章中介绍的都是单向LSTM,这篇文章讲一下双向LSTM. 系列文章: PyTorch搭建LSTM实现多变量多步长时序负荷预测 PyTorch搭建LSTM实现多变量时序负荷预测 PyTorch深度学习LSTM从input输入到Linear输出 PyTorch搭建LSTM实现时间序列负荷预测 II. 原理关于LSTM的输入输出在深入理解Py
PyTorch搭建LSTM实现时间序列负荷预测

目录 I. 前言 II. 数据处理 III. LSTM模型 IV. 训练 V. 测试 VI. 源码及数据 I. 前言在上一篇文章深入理解PyTorch中LSTM的输入和输出(从input输入到Linear输出)中,我详细地解释了如何利用PyTorch来搭建一个LSTM模型,本篇文章的主要目的是搭建一个LSTM模型用于时间序列预测. 系列文章: PyTorch搭建LSTM实现多变量多步长时序负荷预测 PyTorch搭建LSTM实现多变量时序负荷预测 PyTorch深度学习LSTM从input输入
PyTorch搭建LSTM实现多变量多步长时序负荷预测

目录 I. 前言 II. 数据处理 III. LSTM模型 IV. 训练和预测 V. 源码及数据 I. 前言在前面的两篇文章PyTorch搭建LSTM实现时间序列预测(负荷预测)和PyTorch搭建LSTM实现多变量时间序列预测(负荷预测)中,我们利用LSTM分别实现了单变量单步长时间序列预测和多变量单步长时间序列预测. 本篇文章主要考虑用PyTorch搭建LSTM实现多变量多步长时间序列预测. 系列文章: PyTorch搭建双向LSTM实现时间序列负荷预测 PyTorch搭建LSTM实现多变
PyTorch搭建LSTM实现多变量时序负荷预测

目录 I. 前言 II. 数据处理 III. LSTM模型 IV. 训练 V. 测试 VI. 源码及数据 I. 前言在前面的一篇文章PyTorch搭建LSTM实现时间序列预测(负荷预测)中,我们利用LSTM实现了负荷预测,但我们只是简单利用负荷预测负荷,并没有利用到其他一些环境变量,比如温度.湿度等. 本篇文章主要考虑用PyTorch搭建LSTM实现多变量时间序列预测. 系列文章: PyTorch搭建LSTM实现多变量多步长时序负荷预测 PyTorch深度学习LSTM从input输入到Line
PyTorch深度学习LSTM从input输入到Linear输出

目录 LSTM介绍 LSTM参数 Inputs Outputs batch_first 案例 LSTM介绍关于LSTM的具体原理,可以参考: https://www.jb51.net/article/178582.htm https://www.jb51.net/article/178423.htm 系列文章: PyTorch搭建双向LSTM实现时间序列负荷预测 PyTorch搭建LSTM实现多变量多步长时序负荷预测 PyTorch搭建LSTM实现多变量时序负荷预测 PyTorch搭建LSTM
PyTorch搭建ANN实现时间序列风速预测

目录数据集特征构造数据处理 1.数据预处理 2.数据集构造 ANN模型 1.模型训练 2.模型预测及表现数据集数据集为Barcelona某段时间内的气象数据,其中包括温度.湿度以及风速等.本文将简单搭建来对风速进行预测. 特征构造对于风速的预测,除了考虑历史风速数据外,还应该充分考虑其余气象因素的影响.因此,我们根据前24个时刻的风速+下一时刻的其余气象数据来预测下一时刻的风速. 数据处理 1.数据预处理数据预处理阶段,主要将某些列上的文本数据转为数值型数据,同时对原始数据进行归一
PyTorch搭建CNN实现风速预测

目录数据集特征构造一维卷积数据处理 1.数据预处理 2.数据集构造 CNN模型 1.模型搭建 2.模型训练 3.模型预测及表现数据集数据集为Barcelona某段时间内的气象数据,其中包括温度.湿度以及风速等.本文将利用CNN来对风速进行预测. 特征构造对于风速的预测,除了考虑历史风速数据外,还应该充分考虑其余气象因素的影响.因此,我们根据前24个时刻的风速+下一时刻的其余气象数据来预测下一时刻的风速. 一维卷积我们比较熟悉的是CNN处理图像数据时的二维卷积,此时的卷积是一种局部
PyTorch搭建一维线性回归模型（二）

PyTorch基础入门二:PyTorch搭建一维线性回归模型 1)一维线性回归模型的理论基础给定数据集,线性回归希望能够优化出一个好的函数,使得能够和尽可能接近. 如何才能学习到参数和呢?很简单,只需要确定如何衡量与之间的差别,我们一般通过损失函数(Loss Funciton)来衡量:.取平方是因为距离有正有负,我们于是将它们变为全是正的.这就是著名的均方误差.我们要做的事情就是希望能够找到和,使得: 均方差误差非常直观,也有着很好的几何意义,对应了常用的欧式距离.现在要求解这个连续函数的最小
如何使用Pytorch搭建模型

1 模型定义和TF很像,Pytorch也通过继承父类来搭建模型,同样也是实现两个方法.在TF中是__init__()和call(),在Pytorch中则是__init__()和forward().功能类似,都分别是初始化模型内部结构和进行推理.其它功能比如计算loss和训练函数,你也可以继承在里面,当然这是可选的.下面搭建一个判别MNIST手写字的Demo,首先给出模型代码: import numpy as np import matplotlib.pyplot as plt import