ICMLOct, 2020

Polyak 动量方法的可证加速模块化分析:训练一种宽 ReLU 网络和一种深度线性网络

TL;DR本文研究了动量下降法在神经网络训练中的应用,揭示了其加速神经网络训练的原因及机理。通过对多个模型的分析,得出了使用动量下降法相比普通梯度下降法,能够更快地达到更优的训练效果的结论。