通过方差估计加速锐度感知最小化的有效梯度样本大小
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
提出了一种名为 LookSAM 的新算法,可以显著减少 Sharpness-Aware Minimization (SAM) 训练的额外成本,并在大批次训练场景下成功扩展批次大小以训练 Vision Transformers (ViTs) 模型。
Mar, 2022
通过近似梯度和损失景观的限制,GraphSAM 算法减少了 Sharpness-aware minimization(SAM)的训练成本,并提高了图变压器模型的泛化性能。
Jun, 2024
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023
使用渐近无偏采样技术加速 Sharpness-Aware Minimization (SAM) 优化算法,提供超过 70% 的加速效果,同时保持性能。
Jun, 2024
最近提出的深度神经网络优化算法(Sharpness Aware Minimization)通过在梯度计算之前扰动参数,通过梯度上升步骤将优化引导到损失平坦的参数空间区域。我们提出了动量 - SAM(Momentum-SAM),通过在累积动量向量的方向上扰动参数,实现低锐度,而不会对 SGD 或 Adam 产生重大的计算开销或内存需求。通过详细评估 MSAM,我们揭示了 NAG、SAM 和 MSAM 在训练优化和泛化方面的分离机制的洞察。
Jan, 2024
Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降(SGD)的有效优化器,该方法通过平衡特征质量来改善数据集中冗余特征的学习。
May, 2024
本文提出了一种自适应策略 AE-SAM 和 AE-LookSAM 来精准控制模型使用 sharpness-aware minimization(SAM)。经实验证明该方案具有较高效率和效果。
Apr, 2023
本文提出了一种名为 Stochastic Scheduled SAM(SS-SAM)的新型高效训练方案来降低 Sharpness-aware Minimization(SAM)方法的计算复杂度,并探究了不同的调度函数对模型性能的影响。实验结果表明,使用适当的调度函数,可以实现相当或更好的性能,在计算成本更低的情况下训练模型。
Mar, 2022