遗传编程中的适应度敏感最小化
本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer,其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择,以提高模型的训练效率,实验结果表明,该方法与基本优化器相比较,可以节省高达 60% 的计算资源,而且能够保持或提高测试准确性。
Oct, 2021
本文引入了一种新颖、有效的程序,即 Sharpness-Aware Minimization (SAM),通过在局部参数空间中同时最小化损失值和损失锐度,以提高模型泛化能力。实验结果表明,SAM 在多个数据集和模型上都取得了最新的最好结果,同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。
Oct, 2020
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
通过使用 PAC-Bayesian 理论中的 sharpness-aware 最小化方法,在语义空间中寻找表现稳健的符号特征,该方法能够有效减轻遗传规划的过拟合问题,并在限定实例数量和标签噪声存在的情况下表现优于标准遗传规划和其他先进的复杂度测量方法。
May, 2024
本文提出了一种几乎不需要额外计算成本的 Sharpness-Aware Training 方法,能减少由超参导致的广义误差,该方法通过 KL 散度实现了一个平滑收敛点,获得了与 SAM 类似的效果,使训练更加高效。
May, 2022
最近,对于过参数化模型开发优化算法的兴趣不断增加,因为普遍认为实现泛化需要具有适当偏差的算法。本文针对仅考虑少数尖锐度测量值的文献提出了新的尖锐度测量方法,并证明了这些测量方法的普遍表达性,以及它们如何对模型的参数不变性有着显著的影响。此外,本文还提出了 Frob-SAM 和 Det-SAM 两种特定设计的具体优化框架,并通过大量实验证明了该框架的优势。
Jun, 2024
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
Surrogate Gap Guided Sharpness-Aware Minimization (GSAM) improves generalization by introducing a surrogate gap to measure low sharpness and defining a two-step optimization process involving gradient descent and an ascent step in the orthogonal direction to reach both low loss and low sharpness, achieving better generalization than Sharpness-Aware Minimization (SAM) and AdamW on ImageNet top-1 accuracy for ViT-B/32 with negligible computation overhead.
Mar, 2022
通过近似梯度和损失景观的限制,GraphSAM 算法减少了 Sharpness-aware minimization(SAM)的训练成本,并提高了图变压器模型的泛化性能。
Jun, 2024
本文研究表明通过 Sharpness-Aware Minimization 优化方法,可以显著提高语言模型的泛化能力,进而在数据集有限的任务上取得更好的性能表现。
Oct, 2021