如何从RNN起步，一步一步通俗理解LSTM

大家好，欢迎来到IT知识分享网。

前言

提到LSTM，之前学过的同学可能最先想到的是ChristopherOlah的博文《理解LSTM网络》，这篇文章确实厉害，网上流传也相当之广，而且当你看过了网上很多关于LSTM的文章之后，你会发现这篇文章确实经典。不过呢，如果你是第一次看LSTM，则原文可能会给你带来不少障碍：

一者，一上来就干LSTM，不少读者可能还没理解好RNN。基于此，我们可以从最简单的单层网络开始学起；
二者，原文没有对LSTM的三个门解释的足够细致，包括三个不同的sigmoid函数用的同一个符号σ（有错么？没错，看多了就会明白这是习惯用法）；
三者，不同的权值也用的同一个符号w，而当把图、公式、关系一一对应清楚后，初学就不会一脸懵逼了。甚至我们把各个式子的计算过程用有方向的水流表示出来，则会好懂不少，这个时候就可以上动图

而我自己就是这么经历过来的，虽然学过了不少模型/算法，但此前对LSTM依然很多不懂，包括一开始反复看ChristopherOlah博文《理解LSTM网络》，好在和我司AI Lab陈博士反复讨论之后，终于通了！

侧面说明，当一个人冥思苦想想不通时，十之八九是因为看的资料不够通俗，如果还是不行，则问人，结果可能瞬间领悟，这便是教育的意义，也是我们做七月在线的巨大价值。

众所周知，我们已经把SVM、CNN、xgboost、LSTM等很多技术，写的/讲的国内最通俗易懂了，接下来，我们要把BERT等技术也写的/讲的国内最通俗易懂，成为入门标准，而且不单单是从NNLM $\rightarrow$ Word2Vec $\rightarrow$ Seq2Seq $\rightarrow$ Seq2Seq with Attention $\rightarrow$ Transformer $\rightarrow$ Elmo $\rightarrow$ GPT $\rightarrow$ BERT，我们希望给所有AI初学者铺路：一步一个台阶，而不是出现理解断层。

本文在ChristopherOlah的博文及@Not_GOD 翻译的译文等文末参考文献的基础上做了大量便于理解的说明/注解（这些说明/注解是在其他文章里不轻易看到的），一切为更好懂(最初写于2019年5月，后续做了几次更新)

一、RNN

1.1 从单层网络到经典的RNN结构

在学习LSTM之前，得先学习RNN，而在学习RNN之前，首先要了解一下最基本的单层网络，它的结构如下图所示：

如：

自然语言处理问题。x1可以看做是第一个单词，x2可以看做是第二个单词，依次类推
语音处理。此时，x1、x2、x3……是每帧的声音信号。
时间序列问题。例如每天的股票价格等等

而其中，序列形的数据就不太好用原始的神经网络处理了。

为了建模序列问题，RNN引入了隐状态h（hidden state）的概念，隐状态h可以对序列形的数据提取特征，接着再转换为输出。

先从 $h_{1}$ 的计算开始看：

图示中记号的含义是：

a）圆圈或方块表示的是向量。
b）一个箭头就表示对该向量做一次变换。如上图中 $h_{0}$ 和 $x_{1}$ 分别有一个箭头连接，就表示对 $h_{0}$ 和 $x_{1}$ 各做了一次变换
July注(24年3月)：因在写mamba笔记的过程中重新注意到了本文所写的RNN(mamba确实让RNN重新回到了历史舞台上)，故有一些细节特此补充如下
$\rightarrow$ 说白了，基于上一个隐藏层的状态 $h_{0}$ 和当前的输入 $x_{1}$ 计算得来，且提前说一嘴，泛化到任一时刻，便是 $h_{t}=f\left(W h_{t-1}+U x_{t}\right)$ ，而这里的一般是tanh、sigmoid、ReLU等非线性的激活函数
$\rightarrow$ 且在实践中，一般只包含前面若干步而非之前所有步的隐藏状态

在计算时，每一步使用的参数U、W、b都是一样的，也就是说每个步骤的参数都是共享的，这是RNN的重要特点，一定要牢记；
而下文马上要看到的LSTM中的权值则不共享，因为它是在两个不同的向量中。而RNN的权值为何共享呢？很简单，因为RNN的权值是在同一个向量中，只是不同时刻而已

依次计算剩下来的（使用相同的参数U、W、b）：

OK！大功告成！这就是最经典的RNN结构，是x1, x2, …..xn，输出为y1, y2, …yn，也就是说，输入和输出序列必须要是等长的

1.2 RNN的应用

通过上文第一节我们已经知道，RNN是包含循环的网络，在这个循环的结构中，每个神经网络的模块，读取某个输入 $x_{t}$ ，并输出一个值 $h_{t}$ （注：输出之前由y表示，从此处起，改为隐层输出h表示），然后不断循环。循环可以使得信息可以从当前步传递到下一步。

这些循环使得RNN看起来非常神秘。然而，如果你仔细想想，这样也不比一个正常的神经网络难于理解。RNN可以被看做是同一神经网络的多次复制，每个神经网络模块会把消息传递给下一个。所以，如果我们将这个循环展开：

链式的特征揭示了RNN本质上是与序列和列表相关的，它们是对于这类数据的最自然的神经网络架构。

1.3 RNN的局限：长期依赖（Long-TermDependencies）问题

在理论上，RNN绝对可以处理这样的长期依赖问题。人们可以仔细挑选参数来解决这类问题中的最初级形式，但在实践中，RNN则没法太好的学习到这些知识。Bengio,etal.(1994)等人对该问题进行了深入的研究，他们发现一些使训练RNN变得非常困难的相当根本的原因。

换句话说， RNN 会受到短时记忆的影响。如果一条序列足够长，那它们将很难将信息从较早的时间步传送到后面的时间步。

因此，如果你正在尝试处理一段文本进行预测，RNN 可能从一开始就会遗漏重要信息。在反向传播期间（反向传播是一个很重要的核心议题，本质是通过不断缩小误差去更新权值，从而不断去修正拟合的函数），RNN 会面临梯度消失的问题。

因为梯度是用于更新神经网络的权重值（新的权值 = 旧权值 – 学习率*梯度），梯度会随着时间的推移不断下降减少，而当梯度值变得非常小时，就不会继续学习。

换言之，在递归神经网络中，获得小梯度更新的层会停止学习—— 那些通常是较早的层。由于这些层不学习，RNN会忘记它在较长序列中以前看到的内容，因此RNN只具有短时记忆。

而梯度爆炸则是因为计算的难度越来越复杂导致。

然而，幸运的是，有个RNN的变体——LSTM，可以在一定程度上解决梯度消失和梯度爆炸这两个问题！

二、LSTM网络

Long ShortTerm 网络——一般就叫做LSTM——是一种RNN特殊的类型，可以学习长期依赖信息。当然，LSTM和基线RNN并没有特别大的结构不同，但是它们用了不同的函数来计算隐状态。

LSTM的“记忆”我们叫做细胞/cells，你可以直接把它们想做黑盒，这个黑盒的输入为前状态 $h_{t-1}$ 和当前输入 $x_{t}$ 。这些“细胞”会决定哪些之前的信息和状态需要保留/记住，而哪些要被抹去。实际的应用中发现，这种方式可以有效地保存很长时间之前的关联信息。

2.1 什么是LSTM网络

举个例子，当你想在网上购买生活用品时，一般都会查看一下此前已购买该商品用户的评价。

当你浏览评论时，你的大脑下意识地只会记住重要的关键词，比如“amazing”和“awsome”这样的词汇，而不太会关心“this”、“give”、“all”、“should”等字样。如果朋友第二天问你用户评价都说了什么，那你可能不会一字不漏地记住它，而是会说出但大脑里记得的主要观点，比如“下次肯定还会来买”，那其他一些无关紧要的内容自然会从记忆中逐渐消失。

而这基本上就像是 LSTM 或 GRU 所做的那样，它们可以学习只保留相关信息来进行预测，并忘记不相关的数据。简单说，因记忆能力有限，记住重要的，忘记无关紧要的。

激活函数 Tanh 作用在于帮助调节流经网络的值，使得数值始终限制在 -1 和 1 之间。

LSTM同样是这样的结构，但是重复的模块拥有一个不同的结构。具体来说，RNN是重复单一的神经网络层，LSTM中的重复模块则包含四个交互的层，三个Sigmoid 和一个tanh层，并以一种非常特殊的方式进行交互。

上图中，σ表示的Sigmoid 激活函数与 tanh 函数类似，不同之处在于 sigmoid 是把值压缩到0~1 之间而不是 -1~1 之间。这样的设置有助于更新或忘记信息：

因为任何数乘以 0 都得 0，这部分信息就会剔除掉；
同样的，任何数乘以 1 都得到它本身，这部分信息就会完美地保存下来

相当于要么是1则记住，要么是0则忘掉，所以还是这个原则：因记忆能力有限，记住重要的，忘记无关紧要的。

此外，对于图中使用的各种元素的图标中，每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入。粉色的圈代表pointwise的操作，诸如向量的和，而黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接，分开的线表示内容被复制，然后分发到不同的位置。

2.2 LSTM的核心思想

LSTM有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个sigmoid神经网络层和一个pointwise乘法的非线性操作。

如此，0代表“不许任何量通过”，1就指“允许任意量通过”！从而使得网络就能了解哪些数据是需要遗忘，哪些数据是需要保存。

LSTM拥有三种类型的门结构：遗忘门/忘记门、输入门和输出门，来保护和控制细胞状态。下面，我们来介绍这三个门。

三、逐步理解LSTM

3.1 忘记门

在我们LSTM中的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过一个称为“忘记门”的结构完成。该忘记门会读取上一个输出 $h_{t-1}$ 和当前输入 $x_{t}$ ，做一个Sigmoid 的非线性映射，然后输出一个向量 $f_{t}$ （该向量每一个维度的值都在0到1之间，1表示完全保留，0表示完全舍弃，相当于记住了重要的，忘记了无关紧要的），最后与细胞状态 $C_{t-1}$ 相乘。

类比到语言模型的例子中，则是基于已经看到的预测下一个词。在这个问题中，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来。当我们看到新的主语，我们希望忘记旧的主语，进而决定丢弃信息。

大部分初学的读者看到这，可能会有所懵逼，没关系，我们分以下两个步骤理解：

对于上图右侧公式中的权值 $W_{f}$ ，准确的说其实是不共享，即是不一样的。有的同学可能第一反应是what？别急，我展开下你可能就瞬间清晰了，即： $f_{t}=\sigma\left(W_{f_h} h_{t-1}+W_{f_x} x_{t}+b_{f}\right)$
至于右侧公式和左侧的图是怎样的一个一一对应关系呢？如果是用有方向的水流表示计算过程则将一目了然，上动图！红圈表示Sigmoid 激活函数，篮圈表示tanh 函数：

3.2 输入门

继续分两个步骤来理解：

首先，为便于理解图中右侧的两个公式，我们展开下计算过程，即 $i_{t} = \sigma (W_{ih}h_{t-1} + W_{ix}x_{t} + b_{i})$ 、 $\tilde{C_{t}} = tanh(W_{Ch}h_{t-1} + W_{Cx}x_{t} + b_{C})$
其次，上动图！

3.3 细胞状态

现在是更新旧细胞状态的时间了， $C_{t-1}$ 更新为 $C_{t}$ 。前面的步骤已经决定了将会做什么，我们现在就是实际去完成。
我们把旧状态与 $f_{t}$ 相乘，丢弃掉我们确定需要丢弃的信息，接着加上 $i_{t} * \tilde{C}_{t}$ 。这就是新的候选值，根据我们决定更新每个状态的程度进行变化。
在语言模型的例子中，这就是我们实际根据前面确定的目标，丢弃旧代词的性别信息并添加新的信息的地方，类似更新细胞状态。

再次动图！

3.4 输出门

依然分两个步骤来理解：

展开图中右侧第一个公式， $o_{t} = \sigma (W_{oh}h_{t-1} + W_{ox}x_{t} + b_{o})$
最后一个动图：

四、LSTM的变体

我们到目前为止都还在介绍正常的LSTM。但是不是所有的LSTM都长成一个样子的。实际上，几乎所有包含LSTM的论文都采用了微小的变体。差异非常小，但是也值得拿出来讲一下。

4.1 peephole连接与coupled

其中一个流形的LSTM变体，就是由Gers&Schmidhuber(2000)提出的，增加了“peepholeconnection”。是说，我们让门层也会接受细胞状态的输入。

4.2 GRU

另一个改动较大的变体是GatedRecurrentUnit(GRU)，这是由Cho,etal.(2014)提出。它将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态，和其他一些改动。最终的模型比标准的LSTM模型要简单，也是非常流行的变体。

为了便于理解，我把上图右侧中的前三个公式展开一下

$z_{t} = \sigma (W_{zh}h_{t-1} + W_{zx}x_{t})$
$r_{t} = \sigma (W_{rh}h_{t-1} + W_{rx}x_{t})$
$\tilde{h} = tanh(W_{rh}(r_{t}h_{t-1}) + W_{x}x_{t})$

这里面有个小问题，眼尖的同学可能看到了， $z_{t}$ 和 $r_{t}$ 都是对 $h_{t-1}$ 、 $x_{t}$ 做的Sigmoid非线性映射，那区别在哪呢？原因在于GRU把忘记门和输入门合二为一了，而 $z_{t}$ 是属于要记住的，反过来 $1- z_{t}$ 则是属于忘记的，相当于对输入 $h_{t-1}$ 、 $x_{t}$ 做了一些更改/变化，而 $r_{t}$ 则相当于先见之明的把输入 $h_{t-1}$ 、 $x_{t}$ 在 $z_{t}$ / $1- z_{t}$ 对其做更改/变化之前，先事先存一份原始的，最终在 $\tilde{h}$ 那做一个tanh变化。

五、LSTM相关面试题

为帮助大家巩固以上的所学，且助力找AI工作的朋友，特从七月在线AI题库里抽取以下关于LSTM的典型面试题，更具体的答案参见：七月在线 – 智能时代在线职教平台（打开链接后，勾选“面试题”的tab）。

LSTM结构推导，为什么比RNN好？
GRU是什么？GRU对LSTM做了哪些改动？
LSTM神经网络输入输出究竟是怎样的？
为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数，而不是选择统一一种sigmoid或者tanh？这样做的目的是什么？
如何修复梯度爆炸问题？
如何解决RNN梯度爆炸和弥散的问题？

六、参考文献

ChristopherOlah的博文《理解LSTM网络》
@Not_GOD 翻译ChristopherOlah的博文《理解LSTM网络》
RNN是怎么从单层网络一步一步构造的？
通过一张张动图形象的理解LSTM
本文那几个动图我在2019年写本文时以为是来自上述文章，后经一读者提醒，那几个动图最原始的来源于此：Illustrated Guide to LSTM’s and GRU’s: A step by step explanation，特此说明
如何理解LSTM网络（超经典的Christopher Olah的博文之July注解版）
LSTM相关的典型面试题：七月在线 – 智能时代在线职教平台（打开链接后，勾选“面试题”的tab）
如何理解反向传播算法BackPropagation
RNN（recurrent neural networks）循环神经网络

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/126987.html