平坦极小值优化器何时有效?
该论文从PAC-Bayesian角度审视了关于平坦极小值的讨论,并引入了归一化的平坦极小值概念,该概念不受已知尺度依赖问题的影响,且可以提供更好的假设类层次结构。
Jan, 2019
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应Sharpness-Aware Minimization算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
本文提出了一种基于一阶平坦度的新颖训练过程——Gradient norm Aware Minimization(GAM),该算法可寻找具有相对于所有方向均匀小曲率的最小值,此外使用SAM算法也能找到更加平坦的最小值和更好的泛化能力。
Mar, 2023
研究神经网络中的“平坦最小值”问题,确定并探讨适用于非独立同分布数据的方法,并在图神经网络上进行实验,发现使用“平坦最小值”方法可以提高GNN模型的性能超过2个百分点,并推荐实践中使用加权平均技术(EWA)的早期停止时,建议从业者使用权重平均技术,因为它们对超参数不太敏感,无需额外训练,并使原始模型保持不变。
Jun, 2023
通过引入一种相对平坦度度量方法,本研究提出一种新的正则化器,该正则化器易于计算、快速高效,适用于各种损失函数,可以在单层网络上计算海森矩阵,提高模型的泛化性能,有效避免了损失曲面映射的昂贵代价。
Jul, 2023
训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略(SAM)行为的关键影响,并提供了经验和理论结果,表明过参数化对SAM具有重要影响。具体而言,我们证明了在随机设置中SAM可以实现线性收敛速度,并且发现SAM找到的具有线性稳定性的极小值相比SGD更加平坦且具有更均匀分布的Hessian矩。我们的实验结果进一步表明,随着模型过参数化程度的增加,SAM的泛化性能持续改善。我们还展示了稀疏性在实践中为有效的过参数化提供了途径。
Nov, 2023
本研究针对锐度感知最小化(SAM)在提升泛化能力过程中存在的“平坦指示器问题”进行了探讨,提出了双边SAM(BSAM)方法。通过引入当前权重周围邻域内训练损失与最小损失之间的差异,BSAM能够指导优化过程朝向更平坦的最小值,实验证明其在多项任务中的泛化性能和鲁棒性优于传统SAM。
Sep, 2024