最优正则化可以缓解双峰下降现象
本文针对过度参数的最小范数线性估计器的双下降现象,借助一种称为代理随机设计的特殊确定点过程进行研究,该代理设计允许对估计器的平均平方误差进行精确表示,并且我们证明了对于代理设计,未正则化的最小范数估计器的隐式偏置恰好对应于在总体分布上解决岭正则化最小二乘问题的解。
Dec, 2019
研究发现,通过过度参数化,深度神经网络能够在插值训练数据的同时实现卓越的泛化性能,并且在测试误差上具有双下降现象,该现象可以通过集成平均估计器进行抑制。
Mar, 2020
本文使用影响函数来推导适当的人群损失和下界表达式,研究了损失函数对双下降的影响,发现神经网络和其Hessian光谱在插值阈值附近存在有趣的属性。
Mar, 2022
在深度学习模型中,找到最佳大小对于节能取得高广泛影响。 通过恰当的条件,可能避免双下降现象,其中模型大小增长时性能会先变差然后变好,以维持高泛化的效果需要充分过参数化的模型,但添加太多参数会浪费培训资源。在复杂情况下,正则化已经对避免双下降产生了积极作用。
Feb, 2023
在能效方案中,找到深度学习模型的最佳大小非常重要且具有广泛的影响。本文的研究目标是高效地寻找最佳折中方法,针对稀疏双下降现象提出了解决方案,包括使用L2正则化方法以及通过知识蒸馏来规范学生模型,实验结果表明这些方法可以避免该现象的发生。
Aug, 2023
通过对学习表征的特征空间进行全面分析,我们揭示了双下降现象是在用带有噪声数据训练的不完美模型中产生的,它首先通过拟合噪声数据进行学习,然后通过超参数化添加隐式正则化,从而具备了将信息与噪声分离的能力。我们推断双下降现象不应该在经过良好正则化的模型中发生。
Oct, 2023
传统统计学智慧揭示了模型复杂度和预测误差之间的关系,但最近的研究提出了双峰现象的理论,即在参数个数超过样本大小时,测试误差会出现第二次下降。本研究挑战了此理论,并通过对经典统计机器学习方法的细致研究,提出了双峰现象的解释,认为其位置与插值阈值无直接关联,并且通过采用非参数统计学的视角,证明其曲线实际上符合传统的凸形状,解决了双峰现象和统计直觉之间的矛盾。
Oct, 2023
通过优化视角,我们研究了模型智能双下降现象,提出了一种简单的基于优化的解释,同时证明了多样的因素对于模型智能双下降的贡献,并且通过一系列实验展示了这种基于优化的统一观点,从而得出结论:模型智能双下降在实际的机器学习环境中很不可能出现问题。
Dec, 2023
将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而,在现代深度学习实践中,非常庞大的超参数化模型(例如神经网络)被优化以完美拟合训练数据,并且仍然具有出色的泛化性能。在插值点之后,增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制,并引入了具有关键作用的归纳偏差,通过选择一种平滑的经验风险最小化器,从多个插值解决方案中选择一个。最后,第三部分探讨了两个线性模型中的双重下降,并从最近相关的工作提供了其他视角。
Mar, 2024
对两层线性神经网络中的epoch-wise双下降现象进行研究,通过推导出标准线性回归模型的学习动力学和具有二次权重的线性两层对角网络之间的梯度流,识别了额外的导致epoch-wise双下降的因素,进而引出了对真正深度模型的未知因素的进一步问题。
Jul, 2024