理解双重下降需要进行精细的偏差-方差分解
本文中,我们通过统一的性能曲线,协调了传统理解与现代实践,它包含了传统的U形偏差-方差权衡曲线,这个被称为“双下降”曲线的统计证据,证明了其存在于各种模型和数据集中,并推断了其出现机制。通过机器学习模型性能与结构之间的联系,勾勒出了传统分析的局限性,对机器学习的理论和实践都有重要意义。
Dec, 2018
研究发现,通过过度参数化,深度神经网络能够在插值训练数据的同时实现卓越的泛化性能,并且在测试误差上具有双下降现象,该现象可以通过集成平均估计器进行抑制。
Mar, 2020
深度学习模型参数通常大于所需,然而其测试误差在过拟合阈值附近有极值和下降,在过参数化区间反而下降,神经切向核模型可以提供有关真实神经网络的细节。
Aug, 2020
该研究通过建立偏差-方差分解方法,研究了高维核岭回归在欠参数和过参数情况下的泛化性能特征, 揭示了特定的正则化方案下偏差和方差与训练数据数量n 和特征维度d的组合方式对核回归风险曲线的形状的影响。
Oct, 2020
探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时摘要了最新的理论进展,重点考虑了神经网络的线性区域。
Mar, 2021
通过偏差方差分解研究对抗性训练扰动半径对模型测试误差的影响,发现模型的偏差随扰动半径增加单调增加,方差则在训练集插值阈值附近单峰;同时,偏差和方差可用于指导缩小泛化间隔的方法,即预训练和使用无标签数据。
Mar, 2021
机器学习的经典智慧认为泛化误差可以从偏差和方差两个方面进行分解,并且这两个术语之间存在一种权衡关系。然而,在本文中,我们展示了对于由深度学习为基础的分类模型集合,偏差和方差在样本级别上是一致的,其中对于正确分类的样本点,平方偏差近似等于方差。我们通过实证证据在多种深度学习模型和数据集上验证了这一现象。此外,我们从两个理论角度研究了这一现象:校准和神经坍缩。我们首先理论上证明在模型被很好地校准的假设下,我们可以观察到偏差-方差一致性。其次,从神经坍缩理论提供的视角出发,我们展示了偏差和方差之间的近似相关性。
Oct, 2023
传统统计学智慧揭示了模型复杂度和预测误差之间的关系,但最近的研究提出了双峰现象的理论,即在参数个数超过样本大小时,测试误差会出现第二次下降。本研究挑战了此理论,并通过对经典统计机器学习方法的细致研究,提出了双峰现象的解释,认为其位置与插值阈值无直接关联,并且通过采用非参数统计学的视角,证明其曲线实际上符合传统的凸形状,解决了双峰现象和统计直觉之间的矛盾。
Oct, 2023
将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而,在现代深度学习实践中,非常庞大的超参数化模型(例如神经网络)被优化以完美拟合训练数据,并且仍然具有出色的泛化性能。在插值点之后,增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制,并引入了具有关键作用的归纳偏差,通过选择一种平滑的经验风险最小化器,从多个插值解决方案中选择一个。最后,第三部分探讨了两个线性模型中的双重下降,并从最近相关的工作提供了其他视角。
Mar, 2024