针对模型锐度的最小化改进了语言模型泛化

ACLOct, 2021

针对模型锐度的最小化改进了语言模型泛化

Sharpness-Aware Minimization Improves Language Model Generalization

Dara Bahri, Hossein Mobahi, Yi Tay

TL;DR本文研究表明通过 Sharpness-Aware Minimization 优化方法，可以显著提高语言模型的泛化能力，进而在数据集有限的任务上取得更好的性能表现。

Abstract

The allure of superhuman-level capabilities has led to considerable interest in language models like GPT-3 and T5, wherein the research has, by and large, revolved around new model architectures, training tasks, and loss objectives, along with substantial engineering efforts to scale u

language models optimization sharpness-aware minimization generalization performance

发现论文，激发创造

针对高效改善泛化性能的锐度感知最小化

本文引入了一种新颖、有效的程序，即 Sharpness-Aware Minimization (SAM)，通过在局部参数空间中同时最小化损失值和损失锐度，以提高模型泛化能力。实验结果表明，SAM 在多个数据集和模型上都取得了最新的最好结果，同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。

Oct, 2020

GA-SAM: 基于梯度强度的自适应锐度感知优化算法，以提高泛化能力

本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系，提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法（GA-SAM）来发现更具鲁棒性的平坦局部最小值，其在自然语言任务上的表现令人满意。

Oct, 2022

模型泛化：基于锐度感知优化的视角

通过进行三个实验，我们证明了基于锐度感知的优化技术可以提供具有强大泛化能力的模型，并且进一步证明了自适应锐度感知的最小化算法可以提高非标准化数据的泛化性能，但需要进一步研究来确认。

Aug, 2022

为何敏锐度感知最小化的泛化能力优于 SGD?

训练大型神经网络时，过拟合的挑战变得日益重要。为解决这一问题，Sharpness-Aware Minimization（SAM）作为一种有希望的训练方法出现，可在存在标签噪声的情况下提高神经网络的泛化性能。然而，对于非线性神经网络和分类任务领域，对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降（SGD），填补了这一空白。我们所研究问题的损失函数景观是非光滑的，因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处，特别是它能防止在早期阶段噪声学习，从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。

Oct, 2023

先训练平面，再压缩：锐度感知最小化算法学习更易压缩的模型

本文提出了结合 SAM 的各种任务特定的模型压缩方法，包括迭代幅值修剪（IMP）、结构修剪和训练后动态量化，实验表明，优化平坦最小值一致性地导致参数更可压缩，并且在 GLUE 文本分类和 SQuAD 问答基准测试中几乎没有精度损失。

May, 2022

分子图转换模型的高效锐度感知极小化优化

通过近似梯度和损失景观的限制，GraphSAM 算法减少了 Sharpness-aware minimization（SAM）的训练成本，并提高了图变压器模型的泛化性能。

Jun, 2024

通过平衡学习提高特征质量的锐度感知最小化

Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降（SGD）的有效优化器，该方法通过平衡特征质量来改善数据集中冗余特征的学习。

May, 2024

遗传编程中的适应度敏感最小化

通过利用两种简单的方法来利用程序树的输入和输出进行扰动，适应性最小化（SAM）被用于树形遗传编程（TGP）来估计锋利度并用作进化过程中的第二个优化标准。实验结果表明，在 TGP 中使用任何两种提议的 SAM 改进方法都能显著减少种群中的树大小，并减少树中的冗余。在真实世界的基准测试中，精英解的泛化能力不会下降。

May, 2024

探索锐度感知最小化理解

Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.

Jun, 2022

关于尖锐感知极小化的记忆和隐私风险

我们通过数据存储在过参数化模型中的方式来研究寻求更平坦的神经网络损失优化算法如何导致更好的泛化性能，我们提出了新的指标来帮助我们确定哪些数据点在与普通 SGD 相比寻求更平坦最优解的算法中表现更好。我们发现了 Sharpness Aware Minimization (SAM) 所实现的泛化性能提升特别明显的非典型数据点，这需要数据的存储。这一观点帮助我们发现了与 SAM 相关的更高的隐私风险，我们通过详尽的实证评估进行了验证。最后，我们提出了缓解策略以实现更理想的准确性与隐私权衡。

Sep, 2023