软升软降中的隐式正则化

Oct, 2023

Implicit regularization via soft ascent-descent

Matthew J. Holland, Kosuke Nakatani

TL;DR通过提出一种更加鲁棒的程序 SoftAD，该程序通过减少边界点和限制异常值的影响，保留升降效果，实现与 SAM 和 Flooding 竞争性分类准确度，同时保持更小的损失泛化差距和模型规范化。

Abstract

As models grow larger and more complex, achieving better off-sample generalization with minimal trial-and-error is critical to the reliability and economy of machine learning workflows. As a proxy for the well-studied heuristic of seeking "flat" local minima, gradient regularization is

gradient regularization flooding sharpness-aware minimization softad implicit regularization

发现论文，激发创造

AdaFlood：自适应洪水正则化

传统上，神经网络会优化目标函数使得训练损失为零，但最近研究发现设定一个非零训练损失阈值 (即洪水水位) 通常能够实现更好的测试泛化。然而，现有的方法将相同的恒定洪水水位应用于所有训练样本，这在本质上假设所有样本具有相同的难度。本文提出了 AdaFlood，一种新颖的洪水正则化方法，根据样本的难度调整每个训练样本的洪水水位。直观来说，由于训练样本的难度不同，目标训练损失应该与实例有关系。在涵盖文本、图像、异步事件序列和表格等四种不同输入模态的数据集上的实验证明了 AdaFlood 在不同数据领域和噪声水平下的多功能性。

Nov, 2023

GA-SAM: 基于梯度强度的自适应锐度感知优化算法，以提高泛化能力

本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系，提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法（GA-SAM）来发现更具鲁棒性的平坦局部最小值，其在自然语言任务上的表现令人满意。

Oct, 2022

非凸统计估计中的隐式正则化：梯度下降在相位恢复、矩阵补全和盲源分离问题中线性收敛

研究非凸优化问题中梯度下降算法的隐式正则化特性，证明在多种统计模型中，梯度下降算法在没有显式正则化的情况下也能够实现正则化，并在相位恢复、低秩矩阵补全和盲反卷积等三个基本统计估计问题中实现近乎最优的统计和计算保证。

Nov, 2017

友好的锐度感知最小化

SAM 的关键组件有助于改进模型泛化性能，而 F-SAM 则通过移除全梯度成分并利用随机梯度噪声来进一步提高模型的泛化性能。

Mar, 2024

存在糟糕的全局最小值，并且 SGD 可以到达它们

通过研究深度神经网络的显式正则化对随机梯度下降的作用，证实显式正则化对于高参数化的神经网络成功的贡献远比随机梯度下降方法更为重要。

Jun, 2019

CR-SAM：曲率规则的锐度感知最小化

通过最小化最坏情况损失，使用单步梯度上升作为近似方法，我们提出了曲率正则化 SAM（CR-SAM），通过引入归一化的 Hessian 迹来准确测量训练和测试集上的损失曲线的曲率。我们的实证评估结果显示，CR-SAM 在各种数据集上持续提高了 ResNet 和 Vision Transformer（ViT）模型的分类性能。

Dec, 2023

为何敏锐度感知最小化的泛化能力优于 SGD?

训练大型神经网络时，过拟合的挑战变得日益重要。为解决这一问题，Sharpness-Aware Minimization（SAM）作为一种有希望的训练方法出现，可在存在标签噪声的情况下提高神经网络的泛化性能。然而，对于非线性神经网络和分类任务领域，对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降（SGD），填补了这一空白。我们所研究问题的损失函数景观是非光滑的，因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处，特别是它能防止在早期阶段噪声学习，从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。

Oct, 2023

通过平衡学习提高特征质量的锐度感知最小化

Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降（SGD）的有效优化器，该方法通过平衡特征质量来改善数据集中冗余特征的学习。

May, 2024

AdaSAM: 自适应学习率和动量的锐度感知最小化，用于深度神经网络训练

此论文分析了 AdaSAM 在随机非凸环境下的收敛速度，证明了 AdaSAM 的收敛速度为 O（1/√（bT）），具有线性加速性质，随机梯度步骤与自适应学习率和扰动梯度分别分解分析，证明了自适应学习率具有有限的范围，为 SAM 和自适应学习率与动量加速提供了非平凡的收敛率，实验表明 AdaSAM 可以获得比 SGD，AMSGrad 和 SAM 优化器更好的性能。

Mar, 2023

利用锐度敏感的最小化策略

本文提出了一种自适应策略 AE-SAM 和 AE-LookSAM 来精准控制模型使用 sharpness-aware minimization（SAM）。经实验证明该方案具有较高效率和效果。

Apr, 2023