为何敏锐度感知最小化的泛化能力优于SGD?

Oct, 2023

为何敏锐度感知最小化的泛化能力优于SGD?

Why Does Sharpness-Aware Minimization Generalize Better Than SGD?

Zixiang Chen, Junkai Zhang, Yiwen Kou, Xiangning Chen, Cho-Jui Hsieh...

TL;DR训练大型神经网络时，过拟合的挑战变得日益重要。为解决这一问题，Sharpness-Aware Minimization（SAM）作为一种有希望的训练方法出现，可在存在标签噪声的情况下提高神经网络的泛化性能。然而，对于非线性神经网络和分类任务领域，对SAM工作原理的深入理解仍然较为缺乏。本文通过演示为什么SAM对某种数据模型和两层卷积ReLU网络优于随机梯度下降（SGD），填补了这一空白。我们所研究问题的损失函数景观是非光滑的，因此基于Hessian信息的当前解释对于SAM成功的原因是不充分的。我们的结果解释了SAM的好处，特别是它能防止在早期阶段噪声学习，从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。

Abstract

The challenge of overfitting, in which the model memorizes the training data and fails to generalize to test data, has become increasingly significant in the training of large neural networks. To tackle this chal

发现论文，激发创造

针对高效改善泛化性能的锐度感知最小化

本文引入了一种新颖、有效的程序，即Sharpness-Aware Minimization(SAM)，通过在局部参数空间中同时最小化损失值和损失锐度，以提高模型泛化能力。实验结果表明，SAM在多个数据集和模型上都取得了最新的最好结果，同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。

Oct, 2020

神经网络训练的高效锐度感知最小化方法

本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer，其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择，以提高模型的训练效率，实验结果表明，该方法与基本优化器相比较，可以节省高达 60% 的计算资源，而且能够保持或提高测试准确性。

Oct, 2021

探索锐度感知最小化理解

Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.

Jun, 2022

尖锐度最小化算法不仅仅通过最小化尖锐度来达到更好泛化

尽管进行了广泛的研究，但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出，对于两层ReLU网络，（1）平坦确实意味着泛化；（2）存在不泛化的最平坦模型，锐度最小化算法无法泛化；（3）最令人惊讶的是，存在不泛化的最平坦模型，但锐度最小化算法仍然可以泛化。我们的结果表明，锐度与泛化之间的关系微妙地依赖于数据分布和模型架构，锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。

Jul, 2023

过度参数化对锐度感知最小化的影响：实证与理论分析

训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略（SAM）行为的关键影响，并提供了经验和理论结果，表明过参数化对SAM具有重要影响。具体而言，我们证明了在随机设置中SAM可以实现线性收敛速度，并且发现SAM找到的具有线性稳定性的极小值相比SGD更加平坦且具有更均匀分布的Hessian矩。我们的实验结果进一步表明，随着模型过参数化程度的增加，SAM的泛化性能持续改善。我们还展示了稀疏性在实践中为有效的过参数化提供了途径。

Nov, 2023

友好的锐度感知最小化

SAM的关键组件有助于改进模型泛化性能，而F-SAM则通过移除全梯度成分并利用随机梯度噪声来进一步提高模型的泛化性能。

Mar, 2024

充分利用数据：改变训练数据分布以提高内分布泛化性能

我们通过比较梯度下降（GD）和锐度感知最小化（SAM）的归纳偏差，证明了SAM在早期阶段更均匀地学习易于和困难的特征，因此我们提出了一种基于网络输出的示例聚类算法并上采样那些没有易于特征的示例，从而改善了原始数据分布上（S）GD的泛化性能。同时，我们证明该方法与SAM和现有的数据增强策略相结合，在CIFAR10、STL10、CINIC10、Tiny-ImageNet上训练ResNet18，在CIFAR100上训练ResNet34，以及在CIFAR10上训练VGG19和DenseNet121中，取得了目前最佳的性能。

Apr, 2024

SAM对标签噪声具有鲁棒性的原因

Sharpness-Aware Minimization对标签噪声鲁棒性的理解需要考虑到对误差曲面中“较平坦”区域最小值的鲁棒性以及提前停止对峰值性能的影响。通过对logit项和网络Jacobian的改变进行分解，我们推断深层网络中的SAM效果完全由其对网络Jacobian的影响解释，进一步推导了这种Jacobian效果在两层线性网络中引发的隐式正则化效应。受我们分析的启发，我们发现在真实数据集上训练的深度网络中，明确引入这些正则化效应的成本更低的SAM替代方法在很大程度上恢复了优势。

May, 2024

通过平衡学习提高特征质量的锐度感知最小化

Sharpness-Aware Minimization (SAM)提供了一种替代随机梯度下降（SGD）的有效优化器，该方法通过平衡特征质量来改善数据集中冗余特征的学习。

May, 2024

一个通用的尖锐感知最小化算法类

最近，对于过参数化模型开发优化算法的兴趣不断增加，因为普遍认为实现泛化需要具有适当偏差的算法。本文针对仅考虑少数尖锐度测量值的文献提出了新的尖锐度测量方法，并证明了这些测量方法的普遍表达性，以及它们如何对模型的参数不变性有着显著的影响。此外，本文还提出了Frob-SAM和Det-SAM两种特定设计的具体优化框架，并通过大量实验证明了该框架的优势。

Jun, 2024