遗忘门的不合理有效性

Apr, 2018

The unreasonable effectiveness of the forget gate

Jos van der Westhuizen, Joan Lasenby

TL;DR本文提出了一种仅含遗忘门的 LSTM 神经网络模型（即 JANET），采用 chrono-initialized 偏置技术，经实验证明该模型在多个基准数据集上不仅提高了计算效率，而且性能表现较传统 LSTM 网络更优，达到了 99% 和 92.5% 的准确率。

Abstract

Given the success of the gated recurrent unit, a natural question is whether all the gates of the long short-term memory (LSTM) network are necessary. Previous research has shown that the forget gate is one of th

gated recurrent unit long short-term memory network forget gate computational efficiency benchmark datasets

发现论文，激发创造

门控正交循环单元：关于遗忘学习

本文提出了一种基于递归神经网络（RNN）的新模型，它结合了单元 RNN 的记忆能力和门控 RNN 的遗忘冗余 / 无关信息的能力，并通过引入栅门机制扩展了单元 RNN。该模型能够在多项长期依赖基准任务上优于 LSTMs、GRUs 和单元 RNNs，并在多个自然顺序任务中提供有竞争力的结果，包括 bAbI 问题回答、TIMIT 音频预测、Penn TreeBank 和长期依赖的合成任务，如算法、括号、去噪和复制任务。

Jun, 2017

循环神经网络是否能够扭曲时间？

本文研究证明可学习门控在循环神经网络中提供输入数据的时间转换几乎不变性的功能，从而为长期依赖性和参数初始化提供了新的可能性。

Mar, 2018

朝向二值门的鲁棒 LSTM 训练

本研究提出了一种新的 LSTM 训练方式，使得门控单元的输出更加容易解释，经过实证研究，发现通过将门控单元的输出值推向 0 或 1，可以更好地控制信息流，从而提高模型的泛化能力和压缩率。

Jun, 2018

通过修订门循环单元来提升语音识别

本文提出了一种简化的 Gated Recurrent Units 架构，用于语音识别。通过去除重置门和引入 ReLU 激活函数，我们的实现在训练时间上提高了 30％以上，并在不同任务、输入特征和噪声条件下获得了相对于标准 GRU 持续改善的识别性能。

Sep, 2017

探索用于语音合成的门控循环神经网络

本研究旨在回答两个问题：a）为什么长短期记忆（LSTM）作为一种序列模型在 SPSS 中表现良好；b）哪个元素（例如，输入门，输出门，遗忘门）最重要。通过一系列实验以及视觉分析，我们提出了一种简化的架构，比 LSTM 具有较少的参数，从而大大降低了生成一般的复杂性而不降低质量。

Jan, 2016

深度门控 LSTM

本文提出了使用深度门扩展长短期记忆神经网络模型的方法，借助门控函数来控制较高和较低层次中的循环单元线性相关性，实现了机器翻译和语言建模性能的提高。

Aug, 2015

长短期记忆作为动态计算的逐元素加权和

通过解耦 LSTM 门控机制，作者提出了一种新的 RNN 类型，其中门控机制本身作为一种通用的循环模型，提供了比之前更强的表达能力，并且实验表明，门控机制单独在大多数情况下的表现不亚于 LSTM，强烈暗示门控机制在实践中做得比消除消失梯度更多。

May, 2018

语音识别中门控循环神经网络的记忆可视化

本文使用可视化技术研究了 LSTM 和 GRU 在语音识别任务中的行为，并提出两种简单而有效的网络结构修改：LSTM 中的懒惰单元更新和残差学习的快捷连接。两种修改都使得网络更加易于理解和强大。

Sep, 2016

奥卡姆之门

本文通过对门控单元激活值的 L1 正则化来解决基于注意力的 RNN 模型过拟合的问题，同时提高了模型的可解释性。实验证明，这种方法在多项任务中均有效，包含情感分析、释义识别和问答等。

Jun, 2015

ReLU 和加法门控递归神经网络

通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数，该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制，从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时，捕捉到序列数据的长期依赖关系，并且在 CPU 上减少了一半的执行时间，在加密环境下减少了三分之一的执行时间，实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比，能够实现可比较的准确性。同时，该机制还能避免加密变量的乘法操作，从而支持具有保护隐私的同态加密人工智能应用，并能在（非加密）明文应用中支持量化操作，潜在地带来显著的性能提升。

Aug, 2023