通过简单的重标准化策略稳定锐度感知最小化

Jan, 2024

通过简单的重标准化策略稳定锐度感知最小化

Stabilizing Sharpness-aware Minimization Through A Simple Renormalization Strategy

Chengli Tan, Jiangshe Zhang, Junmin Liu, Yicheng Wang, Yunda Hao

TL;DR通过提出稳定的 SAM 策略，我们解决了使用 SAM 训练神经网络的不稳定性问题，并通过理论分析发现稳定 SAM 在扩展学习率范围内能够比 SAM 表现更好，并在多个数据集和任务上验证了其改进的性能。

Abstract

Recently, sharpness-aware minimization (SAM) has attracted a lot of attention because of its surprising effectiveness in improving generalization performance.However, training neural networks with SAM can be high

sharpness-aware minimization generalization performance neural networks renormalization strategy learning rate

发现论文，激发创造

正则化在尖锐度感知极小化中的关键作用

本研究探讨了 Sharpness-Aware Minimization (SAM) 优化算法中 normalization 组件对于优化效果的影响，发现它在稳定算法和漂移的最小值连续谱上都发挥着重要作用，这使得 SAM 算法具有很好的鲁棒性。

May, 2023

为何敏锐度感知最小化的泛化能力优于 SGD?

训练大型神经网络时，过拟合的挑战变得日益重要。为解决这一问题，Sharpness-Aware Minimization（SAM）作为一种有希望的训练方法出现，可在存在标签噪声的情况下提高神经网络的泛化性能。然而，对于非线性神经网络和分类任务领域，对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降（SGD），填补了这一空白。我们所研究问题的损失函数景观是非光滑的，因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处，特别是它能防止在早期阶段噪声学习，从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。

Oct, 2023

通过平衡学习提高特征质量的锐度感知最小化

Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降（SGD）的有效优化器，该方法通过平衡特征质量来改善数据集中冗余特征的学习。

May, 2024

GA-SAM: 基于梯度强度的自适应锐度感知优化算法，以提高泛化能力

本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系，提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法（GA-SAM）来发现更具鲁棒性的平坦局部最小值，其在自然语言任务上的表现令人满意。

Oct, 2022

神经网络训练的高效锐度感知最小化方法

本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer，其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择，以提高模型的训练效率，实验结果表明，该方法与基本优化器相比较，可以节省高达 60% 的计算资源，而且能够保持或提高测试准确性。

Oct, 2021

针对高效改善泛化性能的锐度感知最小化

本文引入了一种新颖、有效的程序，即 Sharpness-Aware Minimization (SAM)，通过在局部参数空间中同时最小化损失值和损失锐度，以提高模型泛化能力。实验结果表明，SAM 在多个数据集和模型上都取得了最新的最好结果，同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。

Oct, 2020

锐度感知最小化的稳定性分析

本文研究了锐度感知最小化的动态，发现其在鞍点处存在收敛不稳定性，并证明了鞍点可以在锐度感知最小化动态下成为吸引子。同时，研究发现锐度感知最小化的扩散比普通梯度下降要差。本研究验证了通过动量和批量大小等训练技巧可以缓解收敛不稳定性并实现高泛化性能。

Jan, 2023

探索锐度感知最小化理解

Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.

Jun, 2022

基于锐度感知的最小化与稳定边缘

最近的实验证明，使用梯度下降的神经网络在损失的 Hessian 算子范数增长到约等于 2 / 步长 η 后，就开始在该值周围波动。我们对 Sharpness-Aware Minimization（SAM）进行了类似的计算，得到了一个基于梯度范数的稳定边缘。通过三个深度学习训练任务的经验验证，我们发现 SAM 在该分析所确定的稳定边缘操作。

Sep, 2023

友好的锐度感知最小化

SAM 的关键组件有助于改进模型泛化性能，而 F-SAM 则通过移除全梯度成分并利用随机梯度噪声来进一步提高模型的泛化性能。

Mar, 2024