Apr, 2023

噪声不是 SGD 和 Adam 在变形金刚上差距的主要因素,但是符号下降可能是

TL;DRAdam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择,最近的研究表明,Adam 和其他启发式算法在语言任务上胜过 SGD,因为采样引起的误差分布具有重尾,我们通过对批处理大小进行进一步研究发现,Adam 在大批量设置中的行为类似于具有动量的符号下降。