实用锐度感知优化无法完全收敛至最优点

Jun, 2023

实用锐度感知优化无法完全收敛至最优点

Practical Sharpness-Aware Minimization Cannot Converge All the Way to Optima

Dongkuk Si, Chulhee Yun

TL;DR研究了具有实际配置的确定性/随机Sharpness-Aware最小化（SAM）的收敛性质，并发现它们与使用衰减扰动大小或在yt中使用梯度归一化的SAM版本的特征明显不同。

Abstract

sharpness-aware minimization (SAM) is an optimizer that takes a descent step based on the gradient at a perturbation $y_t = x_t + \rho \frac{\nabla f(x_t)}{\lVert \nabla f(x_t) \rVert}$ of the current point $x_t$. Existing studies prove →

发现论文，激发创造

使用随机梯度下降法找到稳定点的复杂度

研究了随机梯度下降（SGD）算法在最小化光滑、可能非凸函数梯度范数方面的迭代复杂度，结果表明，Ghadimi和Lan的上限不能得到改进，除非做出额外的假设，即使对于凸二次函数，也是如此；此外还表明，对于非凸函数，SGD最小化梯度的可行性需要根据所选择的最优性标准而定。

Oct, 2019

探索锐度感知最小化理解

Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.

Jun, 2022

增强尖锐度感知最小化：一种稀疏扰动方法

本文介绍了Sparse SAM的有效训练方案，通过使用二进制掩码获取稀疏掩码，基于Fisher信息和动态稀疏训练提供了两种解决方案，理论上证明了Sparse SAM可以以相同的速度收敛，既有潜力加速训练，又可以有效平滑损失地形。

Oct, 2022

锐度感知最小化的稳定性分析

本文研究了锐度感知最小化的动态，发现其在鞍点处存在收敛不稳定性，并证明了鞍点可以在锐度感知最小化动态下成为吸引子。同时，研究发现锐度感知最小化的扩散比普通梯度下降要差。本研究验证了通过动量和批量大小等训练技巧可以缓解收敛不稳定性并实现高泛化性能。

Jan, 2023

梯度范数感知的最小化策略：优先寻找一阶平缓区域并提高泛化性能

本文提出了一种基于一阶平坦度的新颖训练过程——Gradient norm Aware Minimization（GAM），该算法可寻找具有相对于所有方向均匀小曲率的最小值，此外使用SAM算法也能找到更加平坦的最小值和更好的泛化能力。

Mar, 2023

利用锐度敏感的最小化策略

本文提出了一种自适应策略AE-SAM和AE-LookSAM来精准控制模型使用sharpness-aware minimization（SAM）。经实验证明该方案具有较高效率和效果。

Apr, 2023

正则化在尖锐度感知极小化中的关键作用

本研究探讨了 Sharpness-Aware Minimization(SAM) 优化算法中 normalization 组件对于优化效果的影响，发现它在稳定算法和漂移的最小值连续谱上都发挥着重要作用，这使得SAM算法具有很好的鲁棒性。

May, 2023

稀疏扰动锐度感知极小化优化器的系统研究

本文提出一种高效的Sparse SAM训练scheme来有效减少训练中的计算量，以达到平滑损失函数的目标，并提供了基于Fisher information和dynamic sparse training的两种不同的稀疏mask解决方案来实现稀疏干扰，理论证明了与SAM相同的收敛速度和有效性，并在CIFAR和ImageNet-1K上的实验证明了与SAM相比具有更好的效率和表现。

Jun, 2023

通过方差估计加速锐度感知最小化的有效梯度样本大小

通过采用自适应采样方法基于PSF变化的原则，本文提出了一种简单且高效的采样方法，以显著加速模型优化过程中的计算速度，并在广泛的网络架构上实现了与SAM相当的最新准确度。

Feb, 2024

通过学习扰动半径增强锐度感知最小化

该研究解决了锐度感知最小化中扰动半径选择困难的问题。提出了一种双层优化框架LETS，通过最小化训练和验证损失之间的平方泛化间隙来学习扰动半径。实验结果表明，LETS方法有效提升了SAM算法的性能。

Aug, 2024