May, 2023

Dropout Drops Double Descent

TL;DR本论文发现并分析了只需要在全连接层之前添加一个 dropout 层,我们就可以轻松避免双峰下降现象。我们通过理论和实验证明,在线性回归模型和非线性随机特征回归中使用最优 dropout 可以缓解双峰下降现象,并通过 Fashion-MNIST 和 CIFAR-10 等数据集实验证明了最优 dropout 可以在非线性神经网络模型中实现单调测试误差曲线,并建议在遇到双峰下降现象时考虑风险曲线缩放以改善模型表现。同时,我们发现以往的深度学习模型之所以没有遇到双峰下降现象,是因为在这些模型中已经使用了 dropout 等常规正则化方法。据我们所知,这是第一篇分析 dropout 与双峰下降现象关系的论文。