Mar, 2023

梯度范数感知的最小化策略:优先寻找一阶平缓区域并提高泛化性能

TL;DR本文提出了一种基于一阶平坦度的新颖训练过程——Gradient norm Aware Minimization(GAM),该算法可寻找具有相对于所有方向均匀小曲率的最小值,此外使用SAM算法也能找到更加平坦的最小值和更好的泛化能力。