Dropout 减少过拟合

Mar, 2023

Dropout Reduces Underfitting

Zhuang Liu, Zhiqiu Xu, Joseph Jin, Zhiqiang Shen, Trevor Darrell

TL;DR本文研究表明，与只在训练后期使用 dropout 的模型不同，在训练开始时使用 dropout 可减弱梯度方向差异和限制单个批次对模型训练的影响，从而更好地提高模型的泛化精度。

Abstract

Introduced by Hinton et al. in 2012, dropout has stood the test of time as a regularizer for preventing overfitting in neural networks. In this study, we demonstrate that →

dropout neural networks regularization underfitting generalization

发现论文，激发创造

课程辍学

本研究提出了一种名为 “课程退火” 的优化策略，通过逐渐在神经网络结构中添加噪声的方式，从而实施一种非常通用的课程方案，进而创造更好的模型。

Mar, 2017

深度卷积神经网络中有效高效的 dropout

本文主要研究卷积神经网络（CNNs）的正则化问题，提出了几种改进的 dropout 变体，通过在卷积操作之前放置 dropout 操作或将 BN 替换为 GN，以减少 dropout 和其后的 BN 之间的矛盾，以提高 CNNs 的训练效果和正则化。实验证明，通过这些方法构建的 CNN 的性能明显优于现有的 CNN，这主要归功于更好的正则化和隐式模型集成效应。

Apr, 2019

Dropout 的归纳偏差分析

该研究论文探讨了 dropout 作为一种正则化技术在线性分类问题中的应用。通过比较不同正则化技术的表现，研究人员得出一些结论并分析了 dropout 的优势所在。

Dec, 2014

R-Drop: 神经网络的正则化丢弃

本文中介绍了一种简单的正则化方法 R-Drop，该方法强制不同子模型生成的输出分布相互一致，从而提高了深度学习模型的效果。通过在 5 个深度学习任务（包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类）上的实验证明，R-Drop 是普遍有效的，并在 Vanilla Transformer 模型上实现了最先进的性能。

Jun, 2021

引导式 Dropout

本研究提出了一种基于引导选择节点赋予权重的智能随机失活方法，在多个数据集上的实验评估证明了该方法在提高深度神经网络泛化能力方面的有效性。

Dec, 2018

自适应正则化的 Dropout 训练

该研究论文通过将 dropout 解释为一种正则化方法，建立了它与 L2 正则化和 AdaGrad 的联系。进一步地，该方法可被应用于半监督学习，旨在提高模型性能，并在文本分类任务中得到了成功应用。

Jul, 2013

贝叶斯鼓励辍学

从贝叶斯的角度阐述了 dropout 的作用以及其对权重参数学习与预测的优化，实验证明了 dropout 的优化具有积极效果。

Dec, 2014

广义 Dropout

研究表明，Dropout 不仅是一种常用的 Deep Learning 正则化器，而且可以视为对网络参数进行近似贝叶斯推断的一种方式。该论文提出了一种名为 Generalized Dropout 的正则化器家族，并介绍了该家族的一些成员，如可训练参数版本的 Dropout++ 和选择神经网络层宽的方法。实验证明，这些方法比 Dropout 在泛化性能方面更好。

Nov, 2016

关于结构化 Dropout 正则化特性的研究

单层线性网络中，DropBlock 引入了谱 k-support 正则化，促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout，某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中，并用经常使用的网络结构实验验证了理论结论和假设。

Oct, 2019

快速 dropout 及其在循环网络中的应用

本文研究了快速 Dropout（一种用于常规线性模型和神经网络的正则化方法）的后向传递启发式视角，证明了它实现了自适应、参数之间的二次正则化项，对欠拟合情况下的大权重进行奖励，对过度自信预测进行惩罚，并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号，因此没有全局权重吸引器，这可以改善 RNN 的性能。作者基于四个音乐数据集，证实了该假设。

Nov, 2013