R-Drop: 神经网络的正则化丢弃

Jun, 2021

R-Drop: Regularized Dropout for Neural Networks

Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi Meng...

TL;DR本文中介绍了一种简单的正则化方法 R-Drop，该方法强制不同子模型生成的输出分布相互一致，从而提高了深度学习模型的效果。通过在 5 个深度学习任务（包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类）上的实验证明，R-Drop 是普遍有效的，并在 Vanilla Transformer 模型上实现了最先进的性能。

Abstract

dropout is a powerful and widely used technique to regularize the training of deep neural networks. In this paper, we introduce a simple regularization strategy upon →

dropout r-drop deep learning regularization model training

发现论文，激发创造

神经语言模型的逐层正则化丢弃

我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法，通过一些研究使用一致性训练在输出层对 dropout 进行规范化，每个 Transformer 层通过一致性训练策略进行层内规范化，通过在多个数据集上进行大量实验证明，LR-Drop 可以达到卓越的性能，包括最先进的结果。

Feb, 2024

R-Block: 卷积网络的正则化 Dropout 块

通过引入互相学习的训练策略，即 R-Block，结合两个不同 dropout 区域的互补子模型，该方法能够减小卷积层中的随机性，提高了性能和一致性。

Jul, 2023

课程辍学

本研究提出了一种名为 “课程退火” 的优化策略，通过逐渐在神经网络结构中添加噪声的方式，从而实施一种非常通用的课程方案，进而创造更好的模型。

Mar, 2017

广义 Dropout

研究表明，Dropout 不仅是一种常用的 Deep Learning 正则化器，而且可以视为对网络参数进行近似贝叶斯推断的一种方式。该论文提出了一种名为 Generalized Dropout 的正则化器家族，并介绍了该家族的一些成员，如可训练参数版本的 Dropout++ 和选择神经网络层宽的方法。实验证明，这些方法比 Dropout 在泛化性能方面更好。

Nov, 2016

关于结构化 Dropout 正则化特性的研究

单层线性网络中，DropBlock 引入了谱 k-support 正则化，促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout，某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中，并用经常使用的网络结构实验验证了理论结论和假设。

Oct, 2019

快速 dropout 及其在循环网络中的应用

本文研究了快速 Dropout（一种用于常规线性模型和神经网络的正则化方法）的后向传递启发式视角，证明了它实现了自适应、参数之间的二次正则化项，对欠拟合情况下的大权重进行奖励，对过度自信预测进行惩罚，并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号，因此没有全局权重吸引器，这可以改善 RNN 的性能。作者基于四个音乐数据集，证实了该假设。

Nov, 2013

Dropout 改进手写体识别的循环神经网络

使用 dropout 技术可以极大地提高长短期记忆递归神经网络在无约束手写识别中的性能表现。

Nov, 2013

亲兄弟中辍

本文提出了一种名为同胞 dropout 的简单技术，利用 dropout 思想训练两个相同参数的 RNN，通过最小化这些 RNN 的（pre-softmax）预测之间的差异，从而使 RNN 的表示对于 dropout 掩码不变。在序列建模和图像字幕任务中达到了最先进的结果。

Oct, 2017

循环神经网络中基于理论的 Dropout 应用

该论文介绍了一种基于变分推断的 dropout 新技术，并探讨了如何将其应用到 LSTM 和 GRU 模型中，这种方法表现优于现有技术，并在语言模型中取得了最佳结果。

Dec, 2015

Dropout 减少过拟合

本文研究表明，与只在训练后期使用 dropout 的模型不同，在训练开始时使用 dropout 可减弱梯度方向差异和限制单个批次对模型训练的影响，从而更好地提高模型的泛化精度。

Mar, 2023