MMMay, 2024

使用模型指数移动平均的 Adam 算法在非凸优化中的效果

TL;DR理论分析表明,在各种非凸优化设置中,带有模型指数移动平均(EMA)的 Adam 算法的剪切版本能够实现最佳收敛速度,尤其当坐标间尺度差异显著时,Adam 算法的坐标自适应性具有明显优势。