Aug, 2017

Natasha 2:比 SGD 更快的非凸优化

TL;DR本文设计了一种随机算法,使用 O (ε^{-3.25}) 次反向传播来训练任何平滑神经网络到 ε- 近似局部极小值,并能够在不需要凸梯度下降的情况下,以速率 O (ε^{-3.25}) 找到任何平滑非凸函数的 ε- 近似局部极小值。