模型泛化:基于锐度感知优化的视角
本论文提出了自适应锐度的概念和相应的泛化界限,并提出了利用该泛化界限的新型学习方法 ASAM。在各种基准数据集上的实验证明,ASAM 显著提高了模型的泛化性能。
Feb, 2021
本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer,其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择,以提高模型的训练效率,实验结果表明,该方法与基本优化器相比较,可以节省高达 60% 的计算资源,而且能够保持或提高测试准确性。
Oct, 2021
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
本文研究表明通过 Sharpness-Aware Minimization 优化方法,可以显著提高语言模型的泛化能力,进而在数据集有限的任务上取得更好的性能表现。
Oct, 2021
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
本文引入了一种新颖、有效的程序,即 Sharpness-Aware Minimization (SAM),通过在局部参数空间中同时最小化损失值和损失锐度,以提高模型泛化能力。实验结果表明,SAM 在多个数据集和模型上都取得了最新的最好结果,同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。
Oct, 2020
我们通过数据存储在过参数化模型中的方式来研究寻求更平坦的神经网络损失优化算法如何导致更好的泛化性能,我们提出了新的指标来帮助我们确定哪些数据点在与普通 SGD 相比寻求更平坦最优解的算法中表现更好。我们发现了 Sharpness Aware Minimization (SAM) 所实现的泛化性能提升特别明显的非典型数据点,这需要数据的存储。这一观点帮助我们发现了与 SAM 相关的更高的隐私风险,我们通过详尽的实证评估进行了验证。最后,我们提出了缓解策略以实现更理想的准确性与隐私权衡。
Sep, 2023
最近,对于过参数化模型开发优化算法的兴趣不断增加,因为普遍认为实现泛化需要具有适当偏差的算法。本文针对仅考虑少数尖锐度测量值的文献提出了新的尖锐度测量方法,并证明了这些测量方法的普遍表达性,以及它们如何对模型的参数不变性有着显著的影响。此外,本文还提出了 Frob-SAM 和 Det-SAM 两种特定设计的具体优化框架,并通过大量实验证明了该框架的优势。
Jun, 2024
在这项工作中,我们探索了锐度感知极小化(SAM)和模型不可知元学习(MAML)之间的联系,特别是在增强模型泛化方面。我们引入了一种新方法 Agnostic-SAM,它结合了 SAM 和 MAML 的原则。Agnostic-SAM 通过优化模型朝向具有更广泛的局部最小值,使用训练数据来调整 SAM 的核心思想,并同时在验证数据上保持较低的损失值。通过这样做,它寻求不仅对小扰动具有鲁棒性,而且对数据分布转换问题更加稳健的最小值。我们的实验结果表明,Agnostic-SAM 在各种数据集和具有挑战性的条件下(如噪声标签和数据限制)显著改善了泛化能力。
Jun, 2024
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023