Sep, 2024

使用逐步增大的批量大小和衰减学习率的锐度感知最小化算法的收敛性

TL;DR本研究解决了深度神经网络模型在训练中寻找平坦局部最小值的能力不足的问题。通过理论分析,论文提出在使用逐步增大的批量大小或衰减学习率的情况下,锐度感知最小化算法(GSAM)能够更有效地收敛,并且数值比较表明,这种方法能比使用恒定批量大小和学习率找到更平坦的局部最小值。