Jun, 2023

实用锐度感知优化无法完全收敛至最优点

TL;DR研究了具有实际配置的确定性/随机Sharpness-Aware最小化(SAM)的收敛性质,并发现它们与使用衰减扰动大小或在yt中使用梯度归一化的SAM版本的特征明显不同。