ICMLOct, 2020
Polyak 动量方法的可证加速模块化分析:训练一种宽 ReLU 网络和一种深度线性网络
A Modular Analysis of Provable Acceleration via Polyak's Momentum: Training a Wide ReLU Network and a Deep Linear Network
Jun-Kun Wang, Chi-Heng Lin, Jacob Abernethy
TL;DR本文研究了动量下降法在神经网络训练中的应用,揭示了其加速神经网络训练的原因及机理。通过对多个模型的分析,得出了使用动量下降法相比普通梯度下降法,能够更快地达到更优的训练效果的结论。