增强尖锐度感知最小化：一种稀疏扰动方法

Oct, 2022

增强尖锐度感知最小化：一种稀疏扰动方法

Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach

Peng Mi, Li Shen, Tianhe Ren, Yiyi Zhou, Xiaoshuai Sun...

TL;DR本文介绍了 Sparse SAM 的有效训练方案，通过使用二进制掩码获取稀疏掩码，基于 Fisher 信息和动态稀疏训练提供了两种解决方案，理论上证明了 Sparse SAM 可以以相同的速度收敛，既有潜力加速训练，又可以有效平滑损失地形。

Abstract

deep neural networks often suffer from poor generalization caused by complex and non-convex loss landscapes. One of the popular solutions is Sharpness-Aware Minimization (SAM), which smooths the loss landscape via minimizing the maximized change of training loss when adding a perturbat

deep neural networks sharpness-aware minimization sparse sam binary mask fisher information

发现论文，激发创造

稀疏扰动锐度感知极小化优化器的系统研究

本文提出一种高效的 Sparse SAM 训练 scheme 来有效减少训练中的计算量，以达到平滑损失函数的目标，并提供了基于 Fisher information 和 dynamic sparse training 的两种不同的稀疏 mask 解决方案来实现稀疏干扰，理论证明了与 SAM 相同的收敛速度和有效性，并在 CIFAR 和 ImageNet-1K 上的实验证明了与 SAM 相比具有更好的效率和表现。

Jun, 2023

神经网络训练的高效锐度感知最小化方法

本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer，其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择，以提高模型的训练效率，实验结果表明，该方法与基本优化器相比较，可以节省高达 60% 的计算资源，而且能够保持或提高测试准确性。

Oct, 2021

针对高效改善泛化性能的锐度感知最小化

本文引入了一种新颖、有效的程序，即 Sharpness-Aware Minimization (SAM)，通过在局部参数空间中同时最小化损失值和损失锐度，以提高模型泛化能力。实验结果表明，SAM 在多个数据集和模型上都取得了最新的最好结果，同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。

Oct, 2020

利用 Fisher Mask 提高锐度感知极小化在语言模型上的泛化性能

本文提出了一种新的优化方法 FSAM，它通过引入 Fisher 掩码来改善 SAM 方法的效率和性能，它利用 Fisher 信息识别重要参数以进行稀疏扰动，并在各种任务中展示出更好的效果，尤其是在有限的训练数据上。 FSAM 可以在四种不同的预训练模型中提高平均分数 0.67〜1.98，并且在限制训练数据的情况下可以提高到 15.1。

Oct, 2022

规范层是 Sharpness-Aware 最小化的全部需求

本文研究了对小部分参数进行扰动的 Sharpness-aware minimization (SAM) 的性能，并通过实验结果证明，只操作正规化处理中几乎不占比例的仿射变换参数能比全局扰动得到更好的效果。

Jun, 2023

友好的锐度感知最小化

SAM 的关键组件有助于改进模型泛化性能，而 F-SAM 则通过移除全梯度成分并利用随机梯度噪声来进一步提高模型的泛化性能。

Mar, 2024

探索锐度感知最小化理解

Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.

Jun, 2022

通过平衡学习提高特征质量的锐度感知最小化

Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降（SGD）的有效优化器，该方法通过平衡特征质量来改善数据集中冗余特征的学习。

May, 2024

为何敏锐度感知最小化的泛化能力优于 SGD?

训练大型神经网络时，过拟合的挑战变得日益重要。为解决这一问题，Sharpness-Aware Minimization（SAM）作为一种有希望的训练方法出现，可在存在标签噪声的情况下提高神经网络的泛化性能。然而，对于非线性神经网络和分类任务领域，对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降（SGD），填补了这一空白。我们所研究问题的损失函数景观是非光滑的，因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处，特别是它能防止在早期阶段噪声学习，从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。

Oct, 2023

分子图转换模型的高效锐度感知极小化优化

通过近似梯度和损失景观的限制，GraphSAM 算法减少了 Sharpness-aware minimization（SAM）的训练成本，并提高了图变压器模型的泛化性能。

Jun, 2024