Oct, 2018

利用动量加速随机梯度下降优化过参数化学习

TL;DR本文介绍了一种名为 MaSS 的算法,它使用与 SGD 相同的步长,但具有比 SGD 更快的加速收敛速度。该算法解决了 Nesterov SGD 的不收敛问题,并分析了收敛速度和最优超参数对于 mini-batch size 的依赖性。实验结果表明,MaSS 算法在多个深度网络架构中均表现出比 SGD、Nesterov SGD 和 Adam 更优秀的性能。