Dropout 的隐式和显式正则化效应

ICMLFeb, 2020

The Implicit and Explicit Regularization Effects of Dropout

Colin Wei, Sham Kakade, Tengyu Ma

TL;DR本文研究了 dropout 正则化方法的两种作用：修改预期训练目标的明显作用和训练更新的随机性所导致的额外的隐含作用。通过对实验的控制和分析，提出了可以替换 dropout 的简化分析正则化器。

Abstract

dropout is a widely-used regularization technique, often required to obtain state-of-the-art for a number of architectures. This work demonstrates that →

dropout regularization deep neural networks stochasticity training objective

发现论文，激发创造

关于结构化 Dropout 正则化特性的研究

单层线性网络中，DropBlock 引入了谱 k-support 正则化，促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout，某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中，并用经常使用的网络结构实验验证了理论结论和假设。

Oct, 2019

Dropout 的归纳偏差分析

该研究论文探讨了 dropout 作为一种正则化技术在线性分类问题中的应用。通过比较不同正则化技术的表现，研究人员得出一些结论并分析了 dropout 的优势所在。

Dec, 2014

Dropout: 显式形式和容量控制

研究了 Dropout 在不同机器学习问题中提供的容量控制能力。在深度学习中，Dropout 的数据依赖正则化直接控制了基本深度神经网络类的 Rademacher 复杂度，并在矩阵完成和训练深度神经网络中给出了具体的泛化误差界限。在真实数据集，包括 MovieLens，MNIST 和 Fashion-MNIST 上评估了理论发现。

Mar, 2020

随机修正方程和 Dropout 算法的动力学

本文研究了 dropout 过程中的梯度优化机制，使用模拟方法得出其随机修改方程，证明了 dropout 的正则化能力来自于其寻找更平稳的极小值点，实验结果表明这种机制在 dropout 的训练过程中普遍存在。

May, 2023

关于 Dropout 的隐式偏差

本文主要研究 dropout 在深度学习中的应用，发现 dropout 会在单隐藏层线性神经网络中导致隐藏节点的输入 / 输出权重向量模长相等，同时提供了 dropout 所导致的优化景观的完整特征描述。

Jun, 2018

课程辍学

本研究提出了一种名为 “课程退火” 的优化策略，通过逐渐在神经网络结构中添加噪声的方式，从而实施一种非常通用的课程方案，进而创造更好的模型。

Mar, 2017

数据增强代替显式正则化

通过研究比较权值衰减、随机失活和数据增强等正则化技术在深度学习中的作用，提出了数据增强对于提高深度学习泛化性能的显著贡献。因此，建议不要使用权值衰减和随机失活，而要更加关注数据增强和其他归纳偏差来优化神经网络。

Jun, 2018

Dropout 减少过拟合

本文研究表明，与只在训练后期使用 dropout 的模型不同，在训练开始时使用 dropout 可减弱梯度方向差异和限制单个批次对模型训练的影响，从而更好地提高模型的泛化精度。

Mar, 2023

期望线性正则化的随机失活

本文通过将 dropout 看作一种可计算潜在变量的方法来理解其 Tractability，提出了 (approximate) expectation-linear dropout 神经网络，进一步分析了训练和推理中的推断 gap，并证明了通过规范化 dropout 培训目标可以有效地控制推断 gap。实验结果表明减少推断 Gap 可以提高图像分类性能。

Sep, 2016

贝叶斯鼓励辍学

从贝叶斯的角度阐述了 dropout 的作用以及其对权重参数学习与预测的优化，实验证明了 dropout 的优化具有积极效果。

Dec, 2014