机器学习的经典智慧认为泛化误差可以从偏差和方差两个方面进行分解,并且这两个术语之间存在一种权衡关系。然而,在本文中,我们展示了对于由深度学习为基础的分类模型集合,偏差和方差在样本级别上是一致的,其中对于正确分类的样本点,平方偏差近似等于方差。我们通过实证证据在多种深度学习模型和数据集上验证了这一现象。此外,我们从两个理论角度研究了这一现象:校准和神经坍缩。我们首先理论上证明在模型被很好地校准的假设下,我们可以观察到偏差 - 方差一致性。其次,从神经坍缩理论提供的视角出发,我们展示了偏差和方差之间的近似相关性。
Oct, 2023
研究发现,通过过度参数化,深度神经网络能够在插值训练数据的同时实现卓越的泛化性能,并且在测试误差上具有双下降现象,该现象可以通过集成平均估计器进行抑制。
Mar, 2020
通过偏差方差分解研究对抗性训练扰动半径对模型测试误差的影响,发现模型的偏差随扰动半径增加单调增加,方差则在训练集插值阈值附近单峰;同时,偏差和方差可用于指导缩小泛化间隔的方法,即预训练和使用无标签数据。
Mar, 2021
本文中,我们通过统一的性能曲线,协调了传统理解与现代实践,它包含了传统的 U 形偏差 - 方差权衡曲线,这个被称为 “双下降” 曲线的统计证据,证明了其存在于各种模型和数据集中,并推断了其出现机制。通过机器学习模型性能与结构之间的联系,勾勒出了传统分析的局限性,对机器学习的理论和实践都有重要意义。
Dec, 2018
通过对神经网络的偏差和方差进行测量,我们为超参数模型和神经网络等过参数化模型比经典理论更好地泛化提供了简单的解释,发现方差会随网络宽度呈现单峰或钟形曲线,而偏差则像经典理论一样单调递减,另外更深的网络能够同时降低偏差和提高方差。
Feb, 2020
解释机器学习算法在不同领域表现差异的新的非参数分层框架,提供了聚合和详细分解的方法,不需要因果知识,同时导出了消除偏差、计算高效的估算器和统计推断程序,以获得渐近有效的置信区间。
Feb, 2024
将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而,在现代深度学习实践中,非常庞大的超参数化模型(例如神经网络)被优化以完美拟合训练数据,并且仍然具有出色的泛化性能。在插值点之后,增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制,并引入了具有关键作用的归纳偏差,通过选择一种平滑的经验风险最小化器,从多个插值解决方案中选择一个。最后,第三部分探讨了两个线性模型中的双重下降,并从最近相关的工作提供了其他视角。
Mar, 2024
本文考虑使用随机特征空间,在测度无限趋近于无限,特征维度和样本量趋近于无穷大的情况下,利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。
Aug, 2019
研究神经网络中模型复杂度、测试误差曲线、参数数量等因素对偏差 - 方差权衡的影响,证实其与传统理论不同,可以通过增大参数数量来降低偏差和方差。
Oct, 2018
深度学习模型参数通常大于所需,然而其测试误差在过拟合阈值附近有极值和下降,在过参数化区间反而下降,神经切向核模型可以提供有关真实神经网络的细节。
Aug, 2020