TRAM：连接信任区域和锐度感知最小化

ICLROct, 2023

TRAM：连接信任区域和锐度感知最小化

TRAM: Bridging Trust Regions and Sharpness Aware Minimization

Tom Sherborne, Naomi Saphra, Pradeep Dasigi, Hao Peng

TL;DR通过降低参数空间中损失曲面的曲率，锐度感知最小化（SAM）在域转换下实现了广泛的稳健性改进。本研究不关注参数，而是将表示的可转移性作为优化目标，在微调设置中进行跨域泛化的优化。我们考虑基于信任区域的微调方法，以鼓励保持可转移表示，并通过使用信任区域边界在两个优化表面上通知 SAM 风格的正则化方法来统一参数和表示空间平滑方法。我们提出了一种称为 Trust Region Aware Minimization（TRAM）的微调算法，该算法在不忘记预训练结构的情况下，优化平坦的最小值和平滑的信息表示。我们发现，TRAM 在跨领域语言建模和跨语言转移方面胜过锐度感知和基于信任区域的优化方法，在这些任务中，域转换的健壮性和表示的普适性对于成功至关重要。TRAM 为使用最少额外计算训练可推广模型确立了一个新的标准。

Abstract

By reducing the curvature of the loss surface in the parameter space, sharpness-aware minimization (SAM) yields widespread robustness improvement under domain transfer. Instead of focusing on parameters, however, this work considers the transferability of representations as the optimiz

sharpness-aware minimization trust region-based fine-tuning transferable representations optimization surfaces generalizable models

发现论文，激发创造

GA-SAM: 基于梯度强度的自适应锐度感知优化算法，以提高泛化能力

本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系，提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法（GA-SAM）来发现更具鲁棒性的平坦局部最小值，其在自然语言任务上的表现令人满意。

Oct, 2022

针对高效改善泛化性能的锐度感知最小化

本文引入了一种新颖、有效的程序，即 Sharpness-Aware Minimization (SAM)，通过在局部参数空间中同时最小化损失值和损失锐度，以提高模型泛化能力。实验结果表明，SAM 在多个数据集和模型上都取得了最新的最好结果，同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。

Oct, 2020

通过降低表示坍塌改善微调

本论文提出了基于信任区域理论的简化和高效的 fine-tuning 方法，用参数化噪音代替了以前使用的对抗目标，从而在不损害性能的情况下尽可能地减少表示更改。针对 fine-tuning 时的表示崩溃问题，我们还引入了一种新的分析方法。实验证明，我们的 fine-tuning 方法在多种任务上效果优秀且速度更快，在表示的泛化性方面也更稳定。

Aug, 2020

针对域泛化的锐度感知梯度匹配

本文提出 Sharpness-Aware Gradient Matching (SAGM) 算法，旨在通过渐进地对齐经验风险和扰动损失的梯度方向，提高模型泛化能力，并通过实验表明 SAGM 的表现优于当前 DG benchmark 中的现有方法。

Mar, 2023

针对模型锐度的最小化改进了语言模型泛化

本文研究表明通过 Sharpness-Aware Minimization 优化方法，可以显著提高语言模型的泛化能力，进而在数据集有限的任务上取得更好的性能表现。

Oct, 2021

先训练平面，再压缩：锐度感知最小化算法学习更易压缩的模型

本文提出了结合 SAM 的各种任务特定的模型压缩方法，包括迭代幅值修剪（IMP）、结构修剪和训练后动态量化，实验表明，优化平坦最小值一致性地导致参数更可压缩，并且在 GLUE 文本分类和 SQuAD 问答基准测试中几乎没有精度损失。

May, 2022

代理间隙最小化提高锐度感知训练

Surrogate Gap Guided Sharpness-Aware Minimization (GSAM) improves generalization by introducing a surrogate gap to measure low sharpness and defining a two-step optimization process involving gradient descent and an ascent step in the orthogonal direction to reach both low loss and low sharpness, achieving better generalization than Sharpness-Aware Minimization (SAM) and AdamW on ImageNet top-1 accuracy for ViT-B/32 with negligible computation overhead.

Mar, 2022

在领域变化下的受启发锐度感知最小化

该论文提出了一种受领域启发的锐度感知极小化（Domain-Inspired Sharpness-Aware Minimization，DISAM）算法用于在领域变化下的优化问题。通过考虑锐度估计中的领域级收敛一致性，DISAM 引入了最小化领域损失方差的约束，实现了弹性梯度校准，在不同领域之间自动调整梯度扰动，从而实现更快的整体收敛和改进的泛化能力。在各种领域泛化基准测试中，大量实验证明了 DISAM 相比一系列最先进的方法的优越性。此外，我们还展示了 DISAM 在参数高效微调和预训练模型中的优越效率。

May, 2024

RSAM：使用黎曼尖锐感知最小化的流形学习

将尖锐感最小化 (SAM) 优化器推广到黎曼流形中，通过融合几何原理于优化中，增强模型的鲁棒性和泛化能力。

Sep, 2023

利用锐度敏感的最小化策略

本文提出了一种自适应策略 AE-SAM 和 AE-LookSAM 来精准控制模型使用 sharpness-aware minimization（SAM）。经实验证明该方案具有较高效率和效果。

Apr, 2023