通过随机保留隐藏层激活来规范化 RNNs 的 Zoneout 方法

Jun, 2016

通过随机保留隐藏层激活来规范化 RNNs 的 Zoneout 方法

Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations

PDF

David Krueger, Tegan Maharaj, János Kramár, Mohammad Pezeshki, Nicolas Ballas...

TL;DR本文提出了一种名为 zoneout 的新型 RNN 正则化方法，其通过异步化一部分隐藏单元来提高模型的泛化能力，并在字符和词级语言建模的任务中获得了竞争性的结果。

Abstract

We propose zoneout, a novel method for regularizing rnns. At each timestep, →

zoneout rnns regularizing language modelling dropout

发现论文，激发创造

基于 “惊奇度” 的 Zoneout

本文提出了一种新颖的递归神经网络正则化方法，称为 surprisal-driven zoneout，在该方法中，当 surprisal（上一状态的预测值与目标值之间的差异）较小时，状态会 zoneout（保持其先前的值而不更新），从而达到逐神经元基础上的自适应正则化。作者在 Hutter Prize 维基百科数据集上实现了 1.31 的 bits per character，显著缩小了到目前为止最好的高度工程化压缩方法之间的差距。

Oct, 2016

Shakeout: 一种新的正则化深度神经网络训练方法

本研究介绍一种新的正则化训练方法：Shakeout，通过随机增强或反转每个单元对下一层的影响，Shakeout 相比于传统的 Dropout 在图像分类 MNIST，CIFAR-10 和 ImageNet 的实验中表现更好，可以有效避免过拟合，产生更稀疏的权重，以及减少深度神经网络训练过程的不稳定性。

Apr, 2019

Noisin: 循环神经网络的无偏正则化

本文提出了一种名为 Noisin 的新方法，通过注入随机噪声到 RNN 的隐藏状态对其进行正则化，有效避免过拟合，实验证明 Noisin 在语言建模任务上相较于 dropout 有 12.2% 的性能提升。

May, 2018

循环神经网络正则化

该研究介绍了一种简单的正则化技术，在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合，包括语言建模、语音识别、图像字幕生成和机器翻译等。

Sep, 2014

通过稳定激活函数来规范化循环神经网络

通过对 Recurrent Neural Networks 中隐藏状态范数的平方距离进行惩罚，我们稳定了激活值，这是一种有效的正则化方法，提高了字符级语言建模和音素识别性能，超越了加权噪声和 dropout 的方法

Nov, 2015

NoiseOut: 一种简单的神经网络剪枝方法

本文提出了一种全自动剪枝算法 NoiseOut，该算法基于隐藏层神经元的激活相关性，并证明增加完全随机目标的输出神经元会导致神经元之间的更高相关性，从而使 NoiseOut 剪枝更加有效。通过在各种网络和数据集上进行实验，表明该方法具有高剪枝率，同时保持原始网络的精度。

Nov, 2016

BlackOut: 針對非常大的詞彙集，提升循環神經網絡語言模型的加速

本文提出使用黑化（BlackOut）算法，通过采用区分性损失和新的采样策略，以有效训练百万词汇量的大规模循环神经网络语言模型（RNNLM）。实验表明，相较于其他方法，BlackOut 在 GPU 或 CPU 群集的情况下仅需要在单台机器上 1-10 天便可达到更高的扩展性和准确性，同时可用于任何带有大型 softmax 输出层的网络。

Nov, 2015

R-Drop: 神经网络的正则化丢弃

本文中介绍了一种简单的正则化方法 R-Drop，该方法强制不同子模型生成的输出分布相互一致，从而提高了深度学习模型的效果。通过在 5 个深度学习任务（包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类）上的实验证明，R-Drop 是普遍有效的，并在 Vanilla Transformer 模型上实现了最先进的性能。

Jun, 2021

重新审视激活正则化对于语言循环神经网络的影响

本文通过使用传统正则化技术 L2 规则化和缓慢规则化来提高 RNN 对于语言建模任务的性能，而这两种技术只需要对现有 RNN 架构进行最小修改，即可获得与复杂正则化技术或自定义单元结构相媲美或更好的性能表现，并且这些技术可以在现有的优化 LSTM 实现上无需进行任何修改。

Aug, 2017

快速 dropout 及其在循环网络中的应用

本文研究了快速 Dropout（一种用于常规线性模型和神经网络的正则化方法）的后向传递启发式视角，证明了它实现了自适应、参数之间的二次正则化项，对欠拟合情况下的大权重进行奖励，对过度自信预测进行惩罚，并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号，因此没有全局权重吸引器，这可以改善 RNN 的性能。作者基于四个音乐数据集，证实了该假设。

Nov, 2013