正则化在尖锐度感知极小化中的关键作用
本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer,其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择,以提高模型的训练效率,实验结果表明,该方法与基本优化器相比较,可以节省高达 60% 的计算资源,而且能够保持或提高测试准确性。
Oct, 2021
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
本文研究了对小部分参数进行扰动的Sharpness-aware minimization (SAM)的性能,并通过实验结果证明,只操作正规化处理中几乎不占比例的仿射变换参数能比全局扰动得到更好的效果。
Jun, 2023
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对SAM工作原理的深入理解仍然较为缺乏。本文通过演示为什么SAM对某种数据模型和两层卷积ReLU网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于Hessian信息的当前解释对于SAM成功的原因是不充分的。我们的结果解释了SAM的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023
训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略(SAM)行为的关键影响,并提供了经验和理论结果,表明过参数化对SAM具有重要影响。具体而言,我们证明了在随机设置中SAM可以实现线性收敛速度,并且发现SAM找到的具有线性稳定性的极小值相比SGD更加平坦且具有更均匀分布的Hessian矩。我们的实验结果进一步表明,随着模型过参数化程度的增加,SAM的泛化性能持续改善。我们还展示了稀疏性在实践中为有效的过参数化提供了途径。
Nov, 2023
Sharpness-Aware Minimization (SAM)提供了一种替代随机梯度下降(SGD)的有效优化器,该方法通过平衡特征质量来改善数据集中冗余特征的学习。
May, 2024
最近,对于过参数化模型开发优化算法的兴趣不断增加,因为普遍认为实现泛化需要具有适当偏差的算法。本文针对仅考虑少数尖锐度测量值的文献提出了新的尖锐度测量方法,并证明了这些测量方法的普遍表达性,以及它们如何对模型的参数不变性有着显著的影响。此外,本文还提出了Frob-SAM和Det-SAM两种特定设计的具体优化框架,并通过大量实验证明了该框架的优势。
Jun, 2024
本研究针对锐度感知最小化(SAM)在提升泛化能力过程中存在的“平坦指示器问题”进行了探讨,提出了双边SAM(BSAM)方法。通过引入当前权重周围邻域内训练损失与最小损失之间的差异,BSAM能够指导优化过程朝向更平坦的最小值,实验证明其在多项任务中的泛化性能和鲁棒性优于传统SAM。
Sep, 2024
本研究解决了尖锐性意识最小化(SAM)在提升模型泛化能力中的有效性理解不足的问题。我们提出SAM优化的修改目标,发现更精确的近似反而会降低泛化性能,提示SAM的泛化优势来源于这些近似,呼吁对近似在优化中的作用进行进一步研究。这个发现可能会引导新的优化技术开发,改善模型的应用性能。
Nov, 2024