一个通用的尖锐感知最小化算法类
本文引入了一种新颖、有效的程序,即Sharpness-Aware Minimization(SAM),通过在局部参数空间中同时最小化损失值和损失锐度,以提高模型泛化能力。实验结果表明,SAM在多个数据集和模型上都取得了最新的最好结果,同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。
Oct, 2020
本论文提出了自适应锐度的概念和相应的泛化界限,并提出了利用该泛化界限的新型学习方法ASAM。在各种基准数据集上的实验证明,ASAM显著提高了模型的泛化性能。
Feb, 2021
本文提出了一种基于最小锐度的新的锐度测量方法,旨在解决规模敏感性问题,定义在等效的神经网络上,与常用锐度测量方法相比具有更小的计算代价和更好的一般化性能。
Jun, 2021
本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer,其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择,以提高模型的训练效率,实验结果表明,该方法与基本优化器相比较,可以节省高达 60% 的计算资源,而且能够保持或提高测试准确性。
Oct, 2021
Surrogate Gap Guided Sharpness-Aware Minimization (GSAM) improves generalization by introducing a surrogate gap to measure low sharpness and defining a two-step optimization process involving gradient descent and an ascent step in the orthogonal direction to reach both low loss and low sharpness, achieving better generalization than Sharpness-Aware Minimization (SAM) and AdamW on ImageNet top-1 accuracy for ViT-B/32 with negligible computation overhead.
Mar, 2022
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层ReLU网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛化的最平坦模型,但锐度最小化算法仍然可以泛化。我们的结果表明,锐度与泛化之间的关系微妙地依赖于数据分布和模型架构,锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。
Jul, 2023
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对SAM工作原理的深入理解仍然较为缺乏。本文通过演示为什么SAM对某种数据模型和两层卷积ReLU网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于Hessian信息的当前解释对于SAM成功的原因是不充分的。我们的结果解释了SAM的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023
训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略(SAM)行为的关键影响,并提供了经验和理论结果,表明过参数化对SAM具有重要影响。具体而言,我们证明了在随机设置中SAM可以实现线性收敛速度,并且发现SAM找到的具有线性稳定性的极小值相比SGD更加平坦且具有更均匀分布的Hessian矩。我们的实验结果进一步表明,随着模型过参数化程度的增加,SAM的泛化性能持续改善。我们还展示了稀疏性在实践中为有效的过参数化提供了途径。
Nov, 2023
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。
May, 2024