Mar, 2023

AdaSAM: 自适应学习率和动量的锐度感知最小化,用于深度神经网络训练

TL;DR此论文分析了AdaSAM在随机非凸环境下的收敛速度,证明了AdaSAM的收敛速度为O(1/√(bT)),具有线性加速性质,随机梯度步骤与自适应学习率和扰动梯度分别分解分析,证明了自适应学习率具有有限的范围,为SAM和自适应学习率与动量加速提供了非平凡的收敛率,实验表明AdaSAM可以获得比SGD,AMSGrad和SAM优化器更好的性能。