在深度学习模型中,找到最佳大小对于节能取得高广泛影响。 通过恰当的条件,可能避免双下降现象,其中模型大小增长时性能会先变差然后变好,以维持高泛化的效果需要充分过参数化的模型,但添加太多参数会浪费培训资源。在复杂情况下,正则化已经对避免双下降产生了积极作用。
Feb, 2023
在能效方案中,找到深度学习模型的最佳大小非常重要且具有广泛的影响。本文的研究目标是高效地寻找最佳折中方法,针对稀疏双下降现象提出了解决方案,包括使用 L2 正则化方法以及通过知识蒸馏来规范学生模型,实验结果表明这些方法可以避免该现象的发生。
Aug, 2023
通过优化视角,我们研究了模型智能双下降现象,提出了一种简单的基于优化的解释,同时证明了多样的因素对于模型智能双下降的贡献,并且通过一系列实验展示了这种基于优化的统一观点,从而得出结论:模型智能双下降在实际的机器学习环境中很不可能出现问题。
Dec, 2023
本文在一个简单的样例中证明了双下降现象在欠参数化的情况下确实存在,同时探讨了岭回归正则化对模型泛化误差和范数的影响以及两种正则化方法之间的相互作用,结果表明它们不完全等效。
May, 2023
本文针对过度参数的最小范数线性估计器的双下降现象,借助一种称为代理随机设计的特殊确定点过程进行研究,该代理设计允许对估计器的平均平方误差进行精确表示,并且我们证明了对于代理设计,未正则化的最小范数估计器的隐式偏置恰好对应于在总体分布上解决岭正则化最小二乘问题的解。
Dec, 2019
在高参数化线性回归领域中,出现了一个令人惊讶的现象,即当样本数少于特征维数时,测试误差会随着样本增加而增加,即更多的数据反而会伤害估计器。该现象是近期理论研究分析线性模型中 “双下降” 现象的一部分。在本文中,我们以线性回归为预测模型,通过对具有各向同性高斯协方差矩阵的数据集进行分析,对该现象进行了总结和阐述。
通过合适的初始化、梯度下降步数和步长选择,在深度神经网络中无需正则化项,可以达到普适的一致性和收敛速度,而且对于有界预测变量,$L_2$ 误差收敛速度约为 $n^{-1/(1+d)}$,对于交互模型,收敛速度与输入维度 $d$ 无关。
Nov, 2023
将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而,在现代深度学习实践中,非常庞大的超参数化模型(例如神经网络)被优化以完美拟合训练数据,并且仍然具有出色的泛化性能。在插值点之后,增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制,并引入了具有关键作用的归纳偏差,通过选择一种平滑的经验风险最小化器,从多个插值解决方案中选择一个。最后,第三部分探讨了两个线性模型中的双重下降,并从最近相关的工作提供了其他视角。
Mar, 2024
本文使用镜像下降方法来解决深度神经网络优化算法中的隐含正则化问题。
Jun, 2023
本篇论文提出了一个回归模型的理论,在训练数据中具有比数据点更多的参数,这种模型被称为过度参数化模型,有能力插值训练数据,最好的模型是过度参数化的,与模型阶数呈双峰形。我们分析了最小二乘问题的最小化的解的内插模型,以及使用岭回归进行模型拟合的情况。同时也提出了一个基于回归矩阵最小奇异值行为的结果,可以解释测试误差随模型阶数的峰值位置和双峰形状。
Apr, 2023