循环神经网络正则化

Sep, 2014

Recurrent Neural Network Regularization

Wojciech Zaremba, Ilya Sutskever, Oriol Vinyals

TL;DR该研究介绍了一种简单的正则化技术，在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合，包括语言建模、语音识别、图像字幕生成和机器翻译等。

Abstract

We present a simple regularization technique for recurrent neural networks (RNNs) with Long Short-Term Memory (LSTM) units. dropout, the most successful technique for regularizing neural networks, does not work w

recurrent neural networks long short-term memory units dropout overfitting machine translation

发现论文，激发创造

重新审视激活正则化对于语言循环神经网络的影响

本文通过使用传统正则化技术 L2 规则化和缓慢规则化来提高 RNN 对于语言建模任务的性能，而这两种技术只需要对现有 RNN 架构进行最小修改，即可获得与复杂正则化技术或自定义单元结构相媲美或更好的性能表现，并且这些技术可以在现有的优化 LSTM 实现上无需进行任何修改。

Aug, 2017

无记忆丢失的循环失活

本文提出一种新的循环神经网络正则化方法，通过在 extit {循环} 链接中直接删除神经元来实现，并且不会丢失长期记忆，实验证明，该方法即使与传统的前馈 dropout 相结合，也能在自然语言处理基准测试中取得一致的改进。

Mar, 2016

Dropout 改进手写体识别的循环神经网络

使用 dropout 技术可以极大地提高长短期记忆递归神经网络在无约束手写识别中的性能表现。

Nov, 2013

LSTM 语言模型的正则化和优化

介绍了一种使用 DropConnect 和 NT-ASGD 等方法进行 LSTM 正则化优化的模型，在 Penn Treebank 和 WikiText-2 数据集上取得了最佳的困惑度表现，并探索了神经缓存对模型性能的影响。

Aug, 2017

快速 dropout 及其在循环网络中的应用

本文研究了快速 Dropout（一种用于常规线性模型和神经网络的正则化方法）的后向传递启发式视角，证明了它实现了自适应、参数之间的二次正则化项，对欠拟合情况下的大权重进行奖励，对过度自信预测进行惩罚，并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号，因此没有全局权重吸引器，这可以改善 RNN 的性能。作者基于四个音乐数据集，证实了该假设。

Nov, 2013

神经语言模型的正则化和非线性：何时需要？

通过对比具有不同模型结构的 LMs 在少量和大量数据上的表现，分析 RNNs 和 IRLMs 的性能优劣，展示 IRLMs 的一些优点与缺陷，并提出了一种基于 long-context units 的 LM 模型，通过该模型在 Microsoft Research Sentence Completion 数据上最高可以达到 60.8% 的性能。

Jan, 2013

状态规则化递归神经网络

通过使用一种被称为状态规范化的机制来处理以前递归神经网络（RNNs）的不足，从而提高 RNNs 的状态转移动态分析和解释性，并将其应用于自动机抽取，自然语言处理和计算机视觉中。

Jan, 2019

循环神经网络中基于理论的 Dropout 应用

该论文介绍了一种基于变分推断的 dropout 新技术，并探讨了如何将其应用到 LSTM 和 GRU 模型中，这种方法表现优于现有技术，并在语言模型中取得了最佳结果。

Dec, 2015

循环神经网络中学习更长记忆

本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络，并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。

Dec, 2014

奥卡姆之门

本文通过对门控单元激活值的 L1 正则化来解决基于注意力的 RNN 模型过拟合的问题，同时提高了模型的可解释性。实验证明，这种方法在多项任务中均有效，包含情感分析、释义识别和问答等。

Jun, 2015