通过随机保留隐藏层激活来规范化 RNNs 的 Zoneout 方法
本文提出了一种新颖的递归神经网络正则化方法,称为 surprisal-driven zoneout,在该方法中,当 surprisal(上一状态的预测值与目标值之间的差异)较小时,状态会 zoneout(保持其先前的值而不更新),从而达到逐神经元基础上的自适应正则化。作者在 Hutter Prize 维基百科数据集上实现了 1.31 的 bits per character,显著缩小了到目前为止最好的高度工程化压缩方法之间的差距。
Oct, 2016
本研究介绍一种新的正则化训练方法:Shakeout,通过随机增强或反转每个单元对下一层的影响,Shakeout 相比于传统的 Dropout 在图像分类 MNIST,CIFAR-10 和 ImageNet 的实验中表现更好,可以有效避免过拟合,产生更稀疏的权重,以及减少深度神经网络训练过程的不稳定性。
Apr, 2019
本文提出了一种名为 Noisin 的新方法,通过注入随机噪声到 RNN 的隐藏状态对其进行正则化,有效避免过拟合,实验证明 Noisin 在语言建模任务上相较于 dropout 有 12.2% 的性能提升。
May, 2018
该研究介绍了一种简单的正则化技术,在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合,包括语言建模、语音识别、图像字幕生成和机器翻译等。
Sep, 2014
通过对 Recurrent Neural Networks 中隐藏状态范数的平方距离进行惩罚,我们稳定了激活值,这是一种有效的正则化方法,提高了字符级语言建模和音素识别性能,超越了加权噪声和 dropout 的方法
Nov, 2015
本文提出了一种全自动剪枝算法 NoiseOut,该算法基于隐藏层神经元的激活相关性,并证明增加完全随机目标的输出神经元会导致神经元之间的更高相关性,从而使 NoiseOut 剪枝更加有效。通过在各种网络和数据集上进行实验,表明该方法具有高剪枝率,同时保持原始网络的精度。
Nov, 2016
本文提出使用黑化(BlackOut)算法,通过采用区分性损失和新的采样策略,以有效训练百万词汇量的大规模循环神经网络语言模型(RNNLM)。实验表明,相较于其他方法,BlackOut 在 GPU 或 CPU 群集的情况下仅需要在单台机器上 1-10 天便可达到更高的扩展性和准确性,同时可用于任何带有大型 softmax 输出层的网络。
Nov, 2015
本文中介绍了一种简单的正则化方法 R-Drop,该方法强制不同子模型生成的输出分布相互一致,从而提高了深度学习模型的效果。通过在 5 个深度学习任务(包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类)上的实验证明,R-Drop 是普遍有效的,并在 Vanilla Transformer 模型上实现了最先进的性能。
Jun, 2021
本文通过使用传统正则化技术 L2 规则化和缓慢规则化来提高 RNN 对于语言建模任务的性能,而这两种技术只需要对现有 RNN 架构进行最小修改,即可获得与复杂正则化技术或自定义单元结构相媲美或更好的性能表现,并且这些技术可以在现有的优化 LSTM 实现上无需进行任何修改。
Aug, 2017
本文研究了快速 Dropout(一种用于常规线性模型和神经网络的正则化方法)的后向传递启发式视角,证明了它实现了自适应、参数之间的二次正则化项,对欠拟合情况下的大权重进行奖励,对过度自信预测进行惩罚,并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号,因此没有全局权重吸引器,这可以改善 RNN 的性能。作者基于四个音乐数据集,证实了该假设。
Nov, 2013