实用锐度感知优化无法完全收敛至最优点
研究了随机梯度下降(SGD)算法在最小化光滑、可能非凸函数梯度范数方面的迭代复杂度,结果表明,Ghadimi和Lan的上限不能得到改进,除非做出额外的假设,即使对于凸二次函数,也是如此;此外还表明,对于非凸函数,SGD最小化梯度的可行性需要根据所选择的最优性标准而定。
Oct, 2019
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
本文介绍了Sparse SAM的有效训练方案,通过使用二进制掩码获取稀疏掩码,基于Fisher信息和动态稀疏训练提供了两种解决方案,理论上证明了Sparse SAM可以以相同的速度收敛,既有潜力加速训练,又可以有效平滑损失地形。
Oct, 2022
本文研究了锐度感知最小化的动态,发现其在鞍点处存在收敛不稳定性,并证明了鞍点可以在锐度感知最小化动态下成为吸引子。同时,研究发现锐度感知最小化的扩散比普通梯度下降要差。本研究验证了通过动量和批量大小等训练技巧可以缓解收敛不稳定性并实现高泛化性能。
Jan, 2023
本文提出了一种基于一阶平坦度的新颖训练过程——Gradient norm Aware Minimization(GAM),该算法可寻找具有相对于所有方向均匀小曲率的最小值,此外使用SAM算法也能找到更加平坦的最小值和更好的泛化能力。
Mar, 2023
本文提出了一种自适应策略AE-SAM和AE-LookSAM来精准控制模型使用sharpness-aware minimization(SAM)。经实验证明该方案具有较高效率和效果。
Apr, 2023
本研究探讨了 Sharpness-Aware Minimization(SAM) 优化算法中 normalization 组件对于优化效果的影响,发现它在稳定算法和漂移的最小值连续谱上都发挥着重要作用,这使得SAM算法具有很好的鲁棒性。
May, 2023
本文提出一种高效的Sparse SAM训练scheme来有效减少训练中的计算量,以达到平滑损失函数的目标,并提供了基于Fisher information和dynamic sparse training的两种不同的稀疏mask解决方案来实现稀疏干扰,理论证明了与SAM相同的收敛速度和有效性,并在CIFAR和ImageNet-1K上的实验证明了与SAM相比具有更好的效率和表现。
Jun, 2023
通过采用自适应采样方法基于PSF变化的原则,本文提出了一种简单且高效的采样方法,以显著加速模型优化过程中的计算速度,并在广泛的网络架构上实现了与SAM相当的最新准确度。
Feb, 2024
该研究解决了锐度感知最小化中扰动半径选择困难的问题。提出了一种双层优化框架LETS,通过最小化训练和验证损失之间的平方泛化间隙来学习扰动半径。实验结果表明,LETS方法有效提升了SAM算法的性能。
Aug, 2024