通过稳定激活函数来规范化循环神经网络

Nov, 2015

通过稳定激活函数来规范化循环神经网络

Regularizing RNNs by Stabilizing Activations

David Krueger, Roland Memisevic

TL;DR通过对 Recurrent Neural Networks 中隐藏状态范数的平方距离进行惩罚，我们稳定了激活值，这是一种有效的正则化方法，提高了字符级语言建模和音素识别性能，超越了加权噪声和 dropout 的方法

Abstract

We stabilize the activations of recurrent neural networks (RNNs) by penalizing the squared distance between successive hidden states' norms. This penalty term is an effective regularizer for RNNs including LSTMs

recurrent neural networks regularizer language modeling phoneme recognition irnns

发现论文，激发创造

重新审视激活正则化对于语言循环神经网络的影响

本文通过使用传统正则化技术 L2 规则化和缓慢规则化来提高 RNN 对于语言建模任务的性能，而这两种技术只需要对现有 RNN 架构进行最小修改，即可获得与复杂正则化技术或自定义单元结构相媲美或更好的性能表现，并且这些技术可以在现有的优化 LSTM 实现上无需进行任何修改。

Aug, 2017

循环神经网络正则化

该研究介绍了一种简单的正则化技术，在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合，包括语言建模、语音识别、图像字幕生成和机器翻译等。

Sep, 2014

LSTM 语言模型的正则化和优化

介绍了一种使用 DropConnect 和 NT-ASGD 等方法进行 LSTM 正则化优化的模型，在 Penn Treebank 和 WikiText-2 数据集上取得了最佳的困惑度表现，并探索了神经缓存对模型性能的影响。

Aug, 2017

Noisin: 循环神经网络的无偏正则化

本文提出了一种名为 Noisin 的新方法，通过注入随机噪声到 RNN 的隐藏状态对其进行正则化，有效避免过拟合，实验证明 Noisin 在语言建模任务上相较于 dropout 有 12.2% 的性能提升。

May, 2018

神经语言模型的正则化和非线性：何时需要？

通过对比具有不同模型结构的 LMs 在少量和大量数据上的表现，分析 RNNs 和 IRLMs 的性能优劣，展示 IRLMs 的一些优点与缺陷，并提出了一种基于 long-context units 的 LM 模型，通过该模型在 Microsoft Research Sentence Completion 数据上最高可以达到 60.8% 的性能。

Jan, 2013

嘈杂循环神经网络

研究透过向隐含状态注入噪音训练的递归神经网络，已证实该方法可提升其稳定性及鲁棒性。

Feb, 2021

奥卡姆之门

本文通过对门控单元激活值的 L1 正则化来解决基于注意力的 RNN 模型过拟合的问题，同时提高了模型的可解释性。实验证明，这种方法在多项任务中均有效，包含情感分析、释义识别和问答等。

Jun, 2015

状态规则化递归神经网络

通过使用一种被称为状态规范化的机制来处理以前递归神经网络（RNNs）的不足，从而提高 RNNs 的状态转移动态分析和解释性，并将其应用于自动机抽取，自然语言处理和计算机视觉中。

Jan, 2019

通过随机保留隐藏层激活来规范化 RNNs 的 Zoneout 方法

本文提出了一种名为 zoneout 的新型 RNN 正则化方法，其通过异步化一部分隐藏单元来提高模型的泛化能力，并在字符和词级语言建模的任务中获得了竞争性的结果。

Jun, 2016

激活样本方差的方差正则化

通过添加一个新的损失项，将神经网络激活函数的方差稳定下来，使其围绕几个不同的模式分布，并将这种正则化项与 batchnorm 方法联系起来，提高了卷积神经网络和全连接网络的准确性。

Nov, 2018