平坦极小值优化器何时有效?
Sharpness-Aware Minimization (SAM) 提供了一种替代随机梯度下降(SGD)的有效优化器,该方法通过平衡特征质量来改善数据集中冗余特征的学习。
May, 2024
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
通过研究损失和 Hessian 特征谱的几何性质,我们研究了联邦设置中模型的不良性能和泛化失败,发现使用 SAM 或 ASAM 本地训练客户端并在服务器端平均随机权重(SWA)可以显着提高 FL 中的泛化能力并有助于缩小与中央模型的差距,在各种基准视觉数据集和任务上都表现出良好的效果。
Mar, 2022
本文引入了一种新颖、有效的程序,即 Sharpness-Aware Minimization (SAM),通过在局部参数空间中同时最小化损失值和损失锐度,以提高模型泛化能力。实验结果表明,SAM 在多个数据集和模型上都取得了最新的最好结果,同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。
Oct, 2020
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023
本文介绍了一种更通用的方法 WSAM 来提高神经网络的泛化能力,该方法结合了 Sharpness-Aware Minimization 的优点作为正则化项,并通过 PAC 和 Bayes-PAC 技术证明了其泛化上界。在公共数据集上的实验表明,WSAM 实现了泛化能力的提高,或者至少与原始优化器 SAM 及其变体相比具有高竞争力。
May, 2023
我们通过数据存储在过参数化模型中的方式来研究寻求更平坦的神经网络损失优化算法如何导致更好的泛化性能,我们提出了新的指标来帮助我们确定哪些数据点在与普通 SGD 相比寻求更平坦最优解的算法中表现更好。我们发现了 Sharpness Aware Minimization (SAM) 所实现的泛化性能提升特别明显的非典型数据点,这需要数据的存储。这一观点帮助我们发现了与 SAM 相关的更高的隐私风险,我们通过详尽的实证评估进行了验证。最后,我们提出了缓解策略以实现更理想的准确性与隐私权衡。
Sep, 2023
训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略(SAM)行为的关键影响,并提供了经验和理论结果,表明过参数化对 SAM 具有重要影响。具体而言,我们证明了在随机设置中 SAM 可以实现线性收敛速度,并且发现 SAM 找到的具有线性稳定性的极小值相比 SGD 更加平坦且具有更均匀分布的 Hessian 矩。我们的实验结果进一步表明,随着模型过参数化程度的增加,SAM 的泛化性能持续改善。我们还展示了稀疏性在实践中为有效的过参数化提供了途径。
Nov, 2023
图神经网络在协同过滤中取得了令人印象深刻的性能,然而,当训练数据和测试数据的分布不足够一致时,图神经网络的性能会较差。由于训练图神经网络需要优化充满局部和全局极值的非凸神经网络,这些极值在测试时可能性能差异很大,因此选择极值非常重要。因此,我们提出了一种名为 gSAM 的有效训练模式,该模式的原则是较为平坦的极值具有更好的泛化能力。为了实现这个目标,gSAM 通过形成双层优化来规范权重损失函数的平坦度:外部问题进行标准模型训练,而内部问题则帮助模型跳出尖锐的极值。实验证明了我们的 gSAM 的优越性。
Jul, 2023