通过学习扰动半径增强锐度感知最小化
本文引入了一种新颖、有效的程序,即Sharpness-Aware Minimization(SAM),通过在局部参数空间中同时最小化损失值和损失锐度,以提高模型泛化能力。实验结果表明,SAM在多个数据集和模型上都取得了最新的最好结果,同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。
Oct, 2020
本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer,其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择,以提高模型的训练效率,实验结果表明,该方法与基本优化器相比较,可以节省高达 60% 的计算资源,而且能够保持或提高测试准确性。
Oct, 2021
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
本文介绍了Sparse SAM的有效训练方案,通过使用二进制掩码获取稀疏掩码,基于Fisher信息和动态稀疏训练提供了两种解决方案,理论上证明了Sparse SAM可以以相同的速度收敛,既有潜力加速训练,又可以有效平滑损失地形。
Oct, 2022
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应Sharpness-Aware Minimization算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
本文提出了一种基于一阶平坦度的新颖训练过程——Gradient norm Aware Minimization(GAM),该算法可寻找具有相对于所有方向均匀小曲率的最小值,此外使用SAM算法也能找到更加平坦的最小值和更好的泛化能力。
Mar, 2023
本文研究了对小部分参数进行扰动的Sharpness-aware minimization (SAM)的性能,并通过实验结果证明,只操作正规化处理中几乎不占比例的仿射变换参数能比全局扰动得到更好的效果。
Jun, 2023
本文提出一种高效的Sparse SAM训练scheme来有效减少训练中的计算量,以达到平滑损失函数的目标,并提供了基于Fisher information和dynamic sparse training的两种不同的稀疏mask解决方案来实现稀疏干扰,理论证明了与SAM相同的收敛速度和有效性,并在CIFAR和ImageNet-1K上的实验证明了与SAM相比具有更好的效率和表现。
Jun, 2023
本研究针对锐度感知最小化(SAM)在提升泛化能力过程中存在的“平坦指示器问题”进行了探讨,提出了双边SAM(BSAM)方法。通过引入当前权重周围邻域内训练损失与最小损失之间的差异,BSAM能够指导优化过程朝向更平坦的最小值,实验证明其在多项任务中的泛化性能和鲁棒性优于传统SAM。
Sep, 2024