软升软降中的隐式正则化
传统上,神经网络会优化目标函数使得训练损失为零,但最近研究发现设定一个非零训练损失阈值 (即洪水水位) 通常能够实现更好的测试泛化。然而,现有的方法将相同的恒定洪水水位应用于所有训练样本,这在本质上假设所有样本具有相同的难度。本文提出了 AdaFlood,一种新颖的洪水正则化方法,根据样本的难度调整每个训练样本的洪水水位。直观来说,由于训练样本的难度不同,目标训练损失应该与实例有关系。在涵盖文本、图像、异步事件序列和表格等四种不同输入模态的数据集上的实验证明了 AdaFlood 在不同数据领域和噪声水平下的多功能性。
Nov, 2023
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
研究非凸优化问题中梯度下降算法的隐式正则化特性,证明在多种统计模型中,梯度下降算法在没有显式正则化的情况下也能够实现正则化,并在相位恢复、低秩矩阵补全和盲反卷积等三个基本统计估计问题中实现近乎最优的统计和计算保证。
Nov, 2017
通过最小化最坏情况损失,使用单步梯度上升作为近似方法,我们提出了曲率正则化 SAM(CR-SAM),通过引入归一化的 Hessian 迹来准确测量训练和测试集上的损失曲线的曲率。我们的实证评估结果显示,CR-SAM 在各种数据集上持续提高了 ResNet 和 Vision Transformer(ViT)模型的分类性能。
Dec, 2023
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023
Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降(SGD)的有效优化器,该方法通过平衡特征质量来改善数据集中冗余特征的学习。
May, 2024
此论文分析了 AdaSAM 在随机非凸环境下的收敛速度,证明了 AdaSAM 的收敛速度为 O(1/√(bT)),具有线性加速性质,随机梯度步骤与自适应学习率和扰动梯度分别分解分析,证明了自适应学习率具有有限的范围,为 SAM 和自适应学习率与动量加速提供了非平凡的收敛率,实验表明 AdaSAM 可以获得比 SGD,AMSGrad 和 SAM 优化器更好的性能。
Mar, 2023
本文提出了一种自适应策略 AE-SAM 和 AE-LookSAM 来精准控制模型使用 sharpness-aware minimization(SAM)。经实验证明该方案具有较高效率和效果。
Apr, 2023