深度门控 LSTM

MMAug, 2015

Depth-Gated LSTM

Kaisheng Yao, Trevor Cohn, Katerina Vylomova, Kevin Duh, Chris Dyer

TL;DR本文提出了使用深度门扩展长短期记忆神经网络模型的方法，借助门控函数来控制较高和较低层次中的循环单元线性相关性，实现了机器翻译和语言建模性能的提高。

Abstract

In this short note, we present an extension of long short-term memory (LSTM) neural networks to using a depth gate to connect memory cells of adjacent layers. Doing so introduces a linear dependence between lower

long short-term memory neural networks depth gate linear dependence gating function machine translation

发现论文，激发创造

生长与精简的迷你，快速和准确的 LSTM

本文提出一种 H-LSTM 模型，利用增长和修剪（GP）的方式通过梯度增长和基于大小的修剪来迭代调整隐藏层，从而使得模型在图像字幕和语音识别等应用中的表现更快、更精确、更紧凑。

May, 2018

朝向二值门的鲁棒 LSTM 训练

本研究提出了一种新的 LSTM 训练方式，使得门控单元的输出更加容易解释，经过实证研究，发现通过将门控单元的输出值推向 0 或 1，可以更好地控制信息流，从而提高模型的泛化能力和压缩率。

Jun, 2018

门控字、词循环语言模型

本研究提出一种基于长短时记忆（LSTM）单元的循环神经网络语言模型（RNN-LM），有效地利用字符级和单词级输入，在预测英语文本中的下一个单词方面表现优异。

Jun, 2016

循环神经网络是否能够扭曲时间？

本文研究证明可学习门控在循环神经网络中提供输入数据的时间转换几乎不变性的功能，从而为长期依赖性和参数初始化提供了新的可能性。

Mar, 2018

长短期记忆作为动态计算的逐元素加权和

通过解耦 LSTM 门控机制，作者提出了一种新的 RNN 类型，其中门控机制本身作为一种通用的循环模型，提供了比之前更强的表达能力，并且实验表明，门控机制单独在大多数情况下的表现不亚于 LSTM，强烈暗示门控机制在实践中做得比消除消失梯度更多。

May, 2018

嵌套 LSTMs

通过不断嵌套而不是简单堆叠的方式，我们提出了一种新的基于多层内存的循环神经网络体系结构 ——Nested LSTMs。我们在各种字符级语言建模任务中使用 Nested LSTMs 的内存单元，其性能优于使用相似参数的多层 LSTMs 和单层 LSTMs，并且 LSTM 的内部记忆相对于堆叠的 LSTM 的高层单元来说更能学习到长期的依赖关系。

Jan, 2018

用于远距离语音识别的高速公路长短期记忆循环神经网络

本研究提出了一种基于深度神经网络的语音识别模型，它使用直连和双向 LSTM 来提高信息传递效率，并在 AMI DSR 任务上取得了显著的性能提升。

Oct, 2015

ReLU 和加法门控递归神经网络

通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数，该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制，从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时，捕捉到序列数据的长期依赖关系，并且在 CPU 上减少了一半的执行时间，在加密环境下减少了三分之一的执行时间，实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比，能够实现可比较的准确性。同时，该机制还能避免加密变量的乘法操作，从而支持具有保护隐私的同态加密人工智能应用，并能在（非加密）明文应用中支持量化操作，潜在地带来显著的性能提升。

Aug, 2023

网格长短时记忆

本文介绍了 Grid Long Short-Term Memory，这是一种由 LSTM 单元组成的多维网格网络，可用于向量、序列或图像等更高维的数据。该网络在现有深度 LSTM 架构中的不同之处在于单元不仅在网络层之间连接，也连接在数据的时空维度上，提供了一种统一的使用 LSTM 进行深层次和序列计算的方法。我们将模型应用于 15 位整数加法和序列记忆等算法任务，发现其能够显著优于标准 LSTM。我们还给出了两个实证任务的结果。2D Grid LSTM 在维基百科字符预测基准测试中达到了 1.47 位 / 字符，这是神经方法中的最佳结果。此外，我们使用 Grid LSTM 定义了一种新的二维翻译模型 Reencoder，并表明其在中英翻译任务上优于基于短语的参考系统。

Jul, 2015

语音识别中门控循环神经网络的记忆可视化

本文使用可视化技术研究了 LSTM 和 GRU 在语音识别任务中的行为，并提出两种简单而有效的网络结构修改：LSTM 中的懒惰单元更新和残差学习的快捷连接。两种修改都使得网络更加易于理解和强大。

Sep, 2016