无监督学习中的多次下降:噪声、领域偏移和异常值的作用
研究发现,通过过度参数化,深度神经网络能够在插值训练数据的同时实现卓越的泛化性能,并且在测试误差上具有双下降现象,该现象可以通过集成平均估计器进行抑制。
Mar, 2020
本文探讨了过度参数化模型,特别是深度神经网络,在训练期间错误率的演化现象,其原因是来自于不同部分在不同时期学习带来的偏差-方差权衡嵌套问题。通过合理调整步长,可以显著提高早停指标。
Jul, 2020
本文研究表明,随着参数数量的增加,深度神经网络会呈现出“双下降”的特性,同时,随着训练时间的增长,也存在着“按时间下降的双重下降”效应,这在实践中导致训练时间过长,基于验证表现的早停可能导致非最优泛化。作者提出了一种可以从理论上解释“按时间下降的双重下降”的模型,并提供了两种方法来消除这种效应。通过理论分析和实验验证表明,消除缓慢学习特征或修改训练方式可以消除“按时间下降的双重下降”,并且改善模型泛化性能。
Aug, 2021
本文研究了两个具有相同架构、使用相同算法和数据集训练的神经网络,发现在训练数据上,它们的输出差异表现出“双峰现象”。通过广泛实验跨越各种任务、数据集和网络架构,我们证明了这种现象的普遍性。利用这种现象,我们提出了一种新的早期停止准则并开发了一种新的数据质量评估方法。我们的结果表明,基于现象的方法可以在理论理解和实际应用方面有益于深度学习研究。
May, 2023
在自监督模型中,双下降现象可能不存在,两种未被研究的设置(标准自编码器和线性自编码器)的测试损失曲线分别为经典的U形或单调递减形,这一结果帮助我们更好地认识此现象的理论基础。
Jul, 2023
通过对学习表征的特征空间进行全面分析,我们揭示了双下降现象是在用带有噪声数据训练的不完美模型中产生的,它首先通过拟合噪声数据进行学习,然后通过超参数化添加隐式正则化,从而具备了将信息与噪声分离的能力。我们推断双下降现象不应该在经过良好正则化的模型中发生。
Oct, 2023
传统统计学智慧揭示了模型复杂度和预测误差之间的关系,但最近的研究提出了双峰现象的理论,即在参数个数超过样本大小时,测试误差会出现第二次下降。本研究挑战了此理论,并通过对经典统计机器学习方法的细致研究,提出了双峰现象的解释,认为其位置与插值阈值无直接关联,并且通过采用非参数统计学的视角,证明其曲线实际上符合传统的凸形状,解决了双峰现象和统计直觉之间的矛盾。
Oct, 2023
将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而,在现代深度学习实践中,非常庞大的超参数化模型(例如神经网络)被优化以完美拟合训练数据,并且仍然具有出色的泛化性能。在插值点之后,增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制,并引入了具有关键作用的归纳偏差,通过选择一种平滑的经验风险最小化器,从多个插值解决方案中选择一个。最后,第三部分探讨了两个线性模型中的双重下降,并从最近相关的工作提供了其他视角。
Mar, 2024
该研究重新审视了双下降现象,探讨其发生条件,并引入类激活矩阵的概念和一种估计函数有效复杂性的方法,揭示超参数化模型在隐藏激活中展现出更明显和更简单的类别模式。通过全面分析并提供相应的实证证据来验证或反驳这些假设,旨在为双下降现象和良性超参数化提供新的洞察,并促进未来的探索。
May, 2024
对两层线性神经网络中的epoch-wise双下降现象进行研究,通过推导出标准线性回归模型的学习动力学和具有二次权重的线性两层对角网络之间的梯度流,识别了额外的导致epoch-wise双下降的因素,进而引出了对真正深度模型的未知因素的进一步问题。
Jul, 2024