ICLRJun, 2022

通过生成函数看小批量随机梯度下降法:收敛条件、相变、从负动量中受益

TL;DR本文提出了一个新的分析框架来研究 mini-batch SGD 对于具有常数学习率、动量和批次大小的线性模型的噪声平均属性,探讨了问题的谱分布对算法的影响,并验证了使用负动量可以实现最优收敛速率的理论预测。