稀疏双峰下反药物的追求
我们证明了现代深度学习任务表现出“双峰下降”现象,即随着模型大小的增加,性能先变差,然后变好。此外,我们发现双重下降不仅是模型大小的函数,而且是训练时期数的函数。我们通过定义一个我们称之为有效模型复杂度的新复杂度度量来统一以上现象,并猜测存在相对于该度量的广义双下降。此外,我们的模型复杂度概念使我们能够确定某些区域,在这些区域中,增加(甚至是四倍)的训练样本数量实际上会损害测试性能。
Dec, 2019
本文研究是否可以通过使用优化正则化方法避免双重下降现象。理论上,我们证明了对于某些线性回归模型,通过正则化可以实现测试性能的单调性增长,我们还通过实验证明了优化的正则化方法可以缓解双重下降现象。
Mar, 2020
本文探讨了过度参数化模型,特别是深度神经网络,在训练期间错误率的演化现象,其原因是来自于不同部分在不同时期学习带来的偏差-方差权衡嵌套问题。通过合理调整步长,可以显著提高早停指标。
Jul, 2020
本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状,并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程,指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。
Jan, 2021
我们的研究发现,在通过网络修剪增加模型的稀疏性时,测试性能会出现一个稀疏双下降现象,即测试性能先下降,然后上升并达到顶峰,最后再次下降。我们提出了一个新的学习距离解释,它可以很好地反映稀疏双下降曲线,并比最小值平坦性更好地反映泛化能力,此外,我们还发现在稀疏双下降的情况下,中彩票假设的优势并不总是存在。
Jun, 2022
在深度学习模型中,找到最佳大小对于节能取得高广泛影响。 通过恰当的条件,可能避免双下降现象,其中模型大小增长时性能会先变差然后变好,以维持高泛化的效果需要充分过参数化的模型,但添加太多参数会浪费培训资源。在复杂情况下,正则化已经对避免双下降产生了积极作用。
Feb, 2023
Vision transformers are state-of-the-art models that use attention to identify key features in images, but their performance regarding sparse double descent and the optimal model size remains unknown.
Jul, 2023
通过对学习表征的特征空间进行全面分析,我们揭示了双下降现象是在用带有噪声数据训练的不完美模型中产生的,它首先通过拟合噪声数据进行学习,然后通过超参数化添加隐式正则化,从而具备了将信息与噪声分离的能力。我们推断双下降现象不应该在经过良好正则化的模型中发生。
Oct, 2023
该论文研究了双下降现象在两层神经网络中的作用,重点关注了L1正则化和表示维度的作用。研究探讨了稀疏双下降这一替代的双下降现象,并强调了模型复杂度、稀疏性和泛化之间的复杂关系,建议进一步研究更多样化的模型和数据集。这些发现有助于深入理解神经网络的训练和优化。
Jan, 2024
本研究关注于稀疏神经网络的重要性,探讨正则化参数的选择如何影响学习到的神经网络的稀疏程度。通过从统计学角度导出带有$\ell_1$-范数的稀疏促进深度学习模型,本文发展了选择正则化参数的迭代算法,以实现预定的稀疏水平,并在数值实验中验证了方法的有效性。
Aug, 2024