先训练平面，再压缩：锐度感知最小化算法学习更易压缩的模型

EMNLPMay, 2022

先训练平面，再压缩：锐度感知最小化算法学习更易压缩的模型

Train Flat, Then Compress: Sharpness-Aware Minimization Learns More Compressible Models

Clara Na, Sanket Vaibhav Mehta, Emma Strubell

TL;DR本文提出了结合 SAM 的各种任务特定的模型压缩方法，包括迭代幅值修剪（IMP）、结构修剪和训练后动态量化，实验表明，优化平坦最小值一致性地导致参数更可压缩，并且在 GLUE 文本分类和 SQuAD 问答基准测试中几乎没有精度损失。

Abstract

model compression by way of parameter pruning, quantization, or distillation has recently gained popularity as an approach for reducing th

model compression deep neural network models sharpness-aware minimization parameter pruning quantization

发现论文，激发创造

针对模型锐度的最小化改进了语言模型泛化

本文研究表明通过 Sharpness-Aware Minimization 优化方法，可以显著提高语言模型的泛化能力，进而在数据集有限的任务上取得更好的性能表现。

Oct, 2021

针对高效改善泛化性能的锐度感知最小化

本文引入了一种新颖、有效的程序，即 Sharpness-Aware Minimization (SAM)，通过在局部参数空间中同时最小化损失值和损失锐度，以提高模型泛化能力。实验结果表明，SAM 在多个数据集和模型上都取得了最新的最好结果，同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。

Oct, 2020

通过平衡学习提高特征质量的锐度感知最小化

Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降（SGD）的有效优化器，该方法通过平衡特征质量来改善数据集中冗余特征的学习。

May, 2024

GA-SAM: 基于梯度强度的自适应锐度感知优化算法，以提高泛化能力

本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系，提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法（GA-SAM）来发现更具鲁棒性的平坦局部最小值，其在自然语言任务上的表现令人满意。

Oct, 2022

面向深度神经网络的锐度感知量化

本研究提出了一种新方法，叫做 sharpness-aware quantization，旨在通过减小量化时的抖动来提高网络压缩的泛化性能，此方法在多组实验中均能取得比当前最先进方法更好的结果。

Nov, 2021

增强尖锐度感知最小化：一种稀疏扰动方法

本文介绍了 Sparse SAM 的有效训练方案，通过使用二进制掩码获取稀疏掩码，基于 Fisher 信息和动态稀疏训练提供了两种解决方案，理论上证明了 Sparse SAM 可以以相同的速度收敛，既有潜力加速训练，又可以有效平滑损失地形。

Oct, 2022

平坦极小值优化器何时有效？

通过比较基于平坦极小点优化器的损失曲面和在计算机视觉、自然语言处理和图表示学习任务的广泛基准测试中，我们发现了一些令人惊讶的发现，希望这能帮助研究人员进一步改进深度学习优化器，并帮助实践者为其问题选择正确的优化器。

Feb, 2022

关于尖锐感知极小化的记忆和隐私风险

我们通过数据存储在过参数化模型中的方式来研究寻求更平坦的神经网络损失优化算法如何导致更好的泛化性能，我们提出了新的指标来帮助我们确定哪些数据点在与普通 SGD 相比寻求更平坦最优解的算法中表现更好。我们发现了 Sharpness Aware Minimization (SAM) 所实现的泛化性能提升特别明显的非典型数据点，这需要数据的存储。这一观点帮助我们发现了与 SAM 相关的更高的隐私风险，我们通过详尽的实证评估进行了验证。最后，我们提出了缓解策略以实现更理想的准确性与隐私权衡。

Sep, 2023

利用锐度敏感的最小化策略

本文提出了一种自适应策略 AE-SAM 和 AE-LookSAM 来精准控制模型使用 sharpness-aware minimization（SAM）。经实验证明该方案具有较高效率和效果。

Apr, 2023

锐度感知训练

本文提出了一种几乎不需要额外计算成本的 Sharpness-Aware Training 方法，能减少由超参导致的广义误差，该方法通过 KL 散度实现了一个平滑收敛点，获得了与 SAM 类似的效果，使训练更加高效。

May, 2022