深度神经网络是否能避免双重下降现象?
在能效方案中,找到深度学习模型的最佳大小非常重要且具有广泛的影响。本文的研究目标是高效地寻找最佳折中方法,针对稀疏双下降现象提出了解决方案,包括使用 L2 正则化方法以及通过知识蒸馏来规范学生模型,实验结果表明这些方法可以避免该现象的发生。
Aug, 2023
我们证明了现代深度学习任务表现出 “双峰下降” 现象,即随着模型大小的增加,性能先变差,然后变好。此外,我们发现双重下降不仅是模型大小的函数,而且是训练时期数的函数。我们通过定义一个我们称之为有效模型复杂度的新复杂度度量来统一以上现象,并猜测存在相对于该度量的广义双下降。此外,我们的模型复杂度概念使我们能够确定某些区域,在这些区域中,增加(甚至是四倍)的训练样本数量实际上会损害测试性能。
Dec, 2019
将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而,在现代深度学习实践中,非常庞大的超参数化模型(例如神经网络)被优化以完美拟合训练数据,并且仍然具有出色的泛化性能。在插值点之后,增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制,并引入了具有关键作用的归纳偏差,通过选择一种平滑的经验风险最小化器,从多个插值解决方案中选择一个。最后,第三部分探讨了两个线性模型中的双重下降,并从最近相关的工作提供了其他视角。
Mar, 2024
本文探讨了过度参数化模型,特别是深度神经网络,在训练期间错误率的演化现象,其原因是来自于不同部分在不同时期学习带来的偏差 - 方差权衡嵌套问题。通过合理调整步长,可以显著提高早停指标。
Jul, 2020
通过优化视角,我们研究了模型智能双下降现象,提出了一种简单的基于优化的解释,同时证明了多样的因素对于模型智能双下降的贡献,并且通过一系列实验展示了这种基于优化的统一观点,从而得出结论:模型智能双下降在实际的机器学习环境中很不可能出现问题。
Dec, 2023
本文研究表明,随着参数数量的增加,深度神经网络会呈现出 “双下降” 的特性,同时,随着训练时间的增长,也存在着 “按时间下降的双重下降” 效应,这在实践中导致训练时间过长,基于验证表现的早停可能导致非最优泛化。作者提出了一种可以从理论上解释 “按时间下降的双重下降” 的模型,并提供了两种方法来消除这种效应。通过理论分析和实验验证表明,消除缓慢学习特征或修改训练方式可以消除 “按时间下降的双重下降”,并且改善模型泛化性能。
Aug, 2021
传统统计学智慧揭示了模型复杂度和预测误差之间的关系,但最近的研究提出了双峰现象的理论,即在参数个数超过样本大小时,测试误差会出现第二次下降。本研究挑战了此理论,并通过对经典统计机器学习方法的细致研究,提出了双峰现象的解释,认为其位置与插值阈值无直接关联,并且通过采用非参数统计学的视角,证明其曲线实际上符合传统的凸形状,解决了双峰现象和统计直觉之间的矛盾。
Oct, 2023
本文研究是否可以通过使用优化正则化方法避免双重下降现象。理论上,我们证明了对于某些线性回归模型,通过正则化可以实现测试性能的单调性增长,我们还通过实验证明了优化的正则化方法可以缓解双重下降现象。
Mar, 2020
该论文研究了双下降现象在两层神经网络中的作用,重点关注了 L1 正则化和表示维度的作用。研究探讨了稀疏双下降这一替代的双下降现象,并强调了模型复杂度、稀疏性和泛化之间的复杂关系,建议进一步研究更多样化的模型和数据集。这些发现有助于深入理解神经网络的训练和优化。
Jan, 2024
我们的研究发现,在通过网络修剪增加模型的稀疏性时,测试性能会出现一个稀疏双下降现象,即测试性能先下降,然后上升并达到顶峰,最后再次下降。我们提出了一个新的学习距离解释,它可以很好地反映稀疏双下降曲线,并比最小值平坦性更好地反映泛化能力,此外,我们还发现在稀疏双下降的情况下,中彩票假设的优势并不总是存在。
Jun, 2022