双向长短时记忆循环神经网络详解（Bi-directional LSTM RNN）

发布时间：2021-02-20 01:07:20 所属栏目：大数据来源：网络整理

导读：1. Recurrent Neural Network (RNN) 尽管从多层感知器（MLP）到循环神经网络（RNN）的扩展看起来微不足道，但是这对于序列的学习具有深远的意义。循环神经网络（RNN）的使用是用来处理序列数据的。在传统的神经网络中模型中，层与层之间是全连接的，每层之间

这里写图片描述

向后推算（Forward pass）：

如同标准的反向传播（Backpropagation），通过时间的反向传播（BPTT）包含对链规则的重复应用。具体的说是，对于循环网络，目标函数依赖于隐含层的激活函数（不仅通过其对输出层的影响，以及其对下一个时步隐含层的影响），也就是：

这里写图片描述

对于全部的序列 δ 项能够从时刻t = T通过递归的使用上面的公式计算得到。最后，在每一个时步对于隐含层单元的输入和输出的权值是相同的，我们这个序列求和来得到关于每个网络权值的导数。

这里写图片描述

2. Bi-directional Recurrent Neural Network (BRNN)

如果能像访问过去的上下文信息一样，访问未来的上下文，这样对于许多序列标注任务是非常有益的。例如，在最特殊字符分类的时候，如果能像知道这个字母之前的字母一样，知道将要来的字母，这将非常有帮助。同样，对于句子中的音素分类也是如此。

然而，由于标准的循环神经网络（RNN）在时序上处理序列，他们往往忽略了未来的上下文信息。一种很显而易见的解决办法是在输入和目标之间添加延迟，进而可以给网络一些时步来加入未来的上下文信息，也就是加入M时间帧的未来信息来一起预测输出。理论上，M可以非常大来捕获所有未来的可用信息，但事实上发现如果M过大，预测结果将会变差。这是因为网路把精力都集中记忆大量的输入信息，而导致将不同输入向量的预测知识联合的建模能力下降。因此，M的大小需要手动来调节。

双向循环神经网络（BRNN）的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络（RNN），而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。下图展示的是一个沿着时间展开的双向循环神经网络。六个独特的权值在每一个时步被重复的利用，六个权值分别对应：输入到向前和向后隐含层（w1,w3），隐含层到隐含层自己（w2,w5），向前和向后隐含层到输出层（w4,w6）。值得注意的是：向前和向后隐含层之间没有信息流，这保证了展开图是非循环的。

这里写图片描述

图3 双向循环神经网络（BRNN）在时间上展开

对于整个双向循环神经网络（BRNN）的计算过程如下：

向前推算（Forward pass）：

对于双向循环神经网络（BRNN）的隐含层，向前推算跟单向的循环神经网络（RNN）一样，除了输入序列对于两个隐含层是相反方向的，输出层直到两个隐含层处理完所有的全部输入序列才更新：

这里写图片描述

向后推算（Backward pass）：

双向循环神经网络（BRNN）的向后推算与标准的循环神经网络（RNN）通过时间反向传播相似，除了所有的输出层 δ 项首先被计算，然后返回给两个不同方向的隐含层：

这里写图片描述

3. Long Short-Term Memory (LSTM)

循环神经网路（RNN）在工作时一个重要的优点在于，其能够在输入和输出序列之间的映射过程中利用上下文相关信息。然而不幸的是，标准的循环神经网络（RNN）能够存取的上下文信息范围很有限。这个问题就使得隐含层的输入对于网络输出的影响随着网络环路的不断递归而衰退。因此，为了解决这个问题，长短时记忆（LSTM）结构诞生了。与其说长短时记忆是一种循环神经网络，倒不如说是一个加强版的组件被放在了循环神经网络中。具体地说，就是把循环神经网络中隐含层的小圆圈换成长短时记忆的模块。这个模块的样子如下图所示：

这里写图片描述

图4 长短时记忆模块

关于这个单元的计算过程如下所示：

向前推算（Forward pass）：

Input Gate:

这里写图片描述

（编辑：滨州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

人工智能如何使建筑变	10亿+ 秒看阿里如何达
用Elastic Block Stor	开发大数据应用程序企