BriefGPT.xyz
Ask
alpha
关键词
model exponential moving average
搜索结果 - 1
MM
使用模型指数移动平均的 Adam 算法在非凸优化中的效果
理论分析表明,在各种非凸优化设置中,带有模型指数移动平均(EMA)的 Adam 算法的剪切版本能够实现最佳收敛速度,尤其当坐标间尺度差异显著时,Adam 算法的坐标自适应性具有明显优势。
PDF
a month ago
Prev
Next