针对高效改善泛化性能的锐度感知最小化
本文提出了一种几乎不需要额外计算成本的 Sharpness-Aware Training 方法,能减少由超参导致的广义误差,该方法通过 KL 散度实现了一个平滑收敛点,获得了与 SAM 类似的效果,使训练更加高效。
May, 2022
本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer,其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择,以提高模型的训练效率,实验结果表明,该方法与基本优化器相比较,可以节省高达 60% 的计算资源,而且能够保持或提高测试准确性。
Oct, 2021
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
Surrogate Gap Guided Sharpness-Aware Minimization (GSAM) improves generalization by introducing a surrogate gap to measure low sharpness and defining a two-step optimization process involving gradient descent and an ascent step in the orthogonal direction to reach both low loss and low sharpness, achieving better generalization than Sharpness-Aware Minimization (SAM) and AdamW on ImageNet top-1 accuracy for ViT-B/32 with negligible computation overhead.
Mar, 2022
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
最近,对于过参数化模型开发优化算法的兴趣不断增加,因为普遍认为实现泛化需要具有适当偏差的算法。本文针对仅考虑少数尖锐度测量值的文献提出了新的尖锐度测量方法,并证明了这些测量方法的普遍表达性,以及它们如何对模型的参数不变性有着显著的影响。此外,本文还提出了 Frob-SAM 和 Det-SAM 两种特定设计的具体优化框架,并通过大量实验证明了该框架的优势。
Jun, 2024
Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降(SGD)的有效优化器,该方法通过平衡特征质量来改善数据集中冗余特征的学习。
May, 2024
通过提出稳定的 SAM 策略,我们解决了使用 SAM 训练神经网络的不稳定性问题,并通过理论分析发现稳定 SAM 在扩展学习率范围内能够比 SAM 表现更好,并在多个数据集和任务上验证了其改进的性能。
Jan, 2024
本文介绍了 Sparse SAM 的有效训练方案,通过使用二进制掩码获取稀疏掩码,基于 Fisher 信息和动态稀疏训练提供了两种解决方案,理论上证明了 Sparse SAM 可以以相同的速度收敛,既有潜力加速训练,又可以有效平滑损失地形。
Oct, 2022