双重衰退的简要史

Apr, 2020

A Brief Prehistory of Double Descent

Marco Loog, Tom Viering, Alexander Mey, Jesse H. Krijthe, David M.J. Tax

TL;DR本文探讨现代高复杂度学习者的风险曲线，讨论风险曲线与学习器复杂度的关系，特别是所谓的双重下降现象，这一现象历史上早已被了解并已应用于当今的机器学习领域。

Abstract

In their thought-provoking paper [1], Belkin et al. illustrate and discuss the shape of risk curves in the context of modern high-complexity learners. Given a fixed training sample size $n$, such curves show the

risk curves high-complexity learners feature curves double descent machine learning

发现论文，激发创造

弱特征的双下降模型

本文提出了 “双下降” 风险曲线，用于定性描述可变参数机器学习模型的样本外预测准确性。通过对最小二乘 / 最小规范预测器的两个简单数据模型进行精确的数学分析，显示出风险在特征数 $p$ 接近样本数 $n$ 时达到峰值，但随着 $p$ 超过 $n$ 而逐渐降低至最小值。而这种行为则和需要提前确定最优特征序列的 “先知” 模型有所不同。

Mar, 2019

统计学习中关于参数计数的重新思考：双下降的转向

传统统计学智慧揭示了模型复杂度和预测误差之间的关系，但最近的研究提出了双峰现象的理论，即在参数个数超过样本大小时，测试误差会出现第二次下降。本研究挑战了此理论，并通过对经典统计机器学习方法的细致研究，提出了双峰现象的解释，认为其位置与插值阈值无直接关联，并且通过采用非参数统计学的视角，证明其曲线实际上符合传统的凸形状，解决了双峰现象和统计直觉之间的矛盾。

Oct, 2023

深度学习中的双下降现象理解

将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而，在现代深度学习实践中，非常庞大的超参数化模型（例如神经网络）被优化以完美拟合训练数据，并且仍然具有出色的泛化性能。在插值点之后，增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制，并引入了具有关键作用的归纳偏差，通过选择一种平滑的经验风险最小化器，从多个插值解决方案中选择一个。最后，第三部分探讨了两个线性模型中的双重下降，并从最近相关的工作提供了其他视角。

Mar, 2024

随机特征回归的泛化误差：精确渐近性和双下降曲线

本文考虑使用随机特征空间，在测度无限趋近于无限，特征维度和样本量趋近于无穷大的情况下，利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。

Aug, 2019

解开双下降之谜：通过学习特征空间的深入分析

通过对学习表征的特征空间进行全面分析，我们揭示了双下降现象是在用带有噪声数据训练的不完美模型中产生的，它首先通过拟合噪声数据进行学习，然后通过超参数化添加隐式正则化，从而具备了将信息与噪声分离的能力。我们推断双下降现象不应该在经过良好正则化的模型中发生。

Oct, 2023

深度双谷：更大的模型和更多的数据会造成伤害

我们证明了现代深度学习任务表现出 “双峰下降” 现象，即随着模型大小的增加，性能先变差，然后变好。此外，我们发现双重下降不仅是模型大小的函数，而且是训练时期数的函数。我们通过定义一个我们称之为有效模型复杂度的新复杂度度量来统一以上现象，并猜测存在相对于该度量的广义双下降。此外，我们的模型复杂度概念使我们能够确定某些区域，在这些区域中，增加（甚至是四倍）的训练样本数量实际上会损害测试性能。

Dec, 2019

Triple descent 和两种过拟合：何时何处出现？

本文研究深度学习中的双下降现象，即当训练样本数 N 接近模型参数数 P 或者输入维度 D 时，神经网络的泛化误差会出现峰值，本文提供了理论解释，并探讨了非线性对此现象的影响及正则化方法的应用。

Jun, 2020

深度神经网络是否能避免双重下降现象？

在深度学习模型中，找到最佳大小对于节能取得高广泛影响。通过恰当的条件，可能避免双下降现象，其中模型大小增长时性能会先变差然后变好，以维持高泛化的效果需要充分过参数化的模型，但添加太多参数会浪费培训资源。在复杂情况下，正则化已经对避免双下降产生了积极作用。

Feb, 2023

用代理随机设计的双重下降和隐式正则化的精确表达式

本文针对过度参数的最小范数线性估计器的双下降现象，借助一种称为代理随机设计的特殊确定点过程进行研究，该代理设计允许对估计器的平均平方误差进行精确表示，并且我们证明了对于代理设计，未正则化的最小范数估计器的隐式偏置恰好对应于在总体分布上解决岭正则化最小二乘问题的解。

Dec, 2019

Dropout Drops Double Descent

本论文发现并分析了只需要在全连接层之前添加一个 dropout 层，我们就可以轻松避免双峰下降现象。我们通过理论和实验证明，在线性回归模型和非线性随机特征回归中使用最优 dropout 可以缓解双峰下降现象，并通过 Fashion-MNIST 和 CIFAR-10 等数据集实验证明了最优 dropout 可以在非线性神经网络模型中实现单调测试误差曲线，并建议在遇到双峰下降现象时考虑风险曲线缩放以改善模型表现。同时，我们发现以往的深度学习模型之所以没有遇到双峰下降现象，是因为在这些模型中已经使用了 dropout 等常规正则化方法。据我们所知，这是第一篇分析 dropout 与双峰下降现象关系的论文。

May, 2023