Mar, 2018

用随机梯度逃离鞍点

TL;DR本文研究了在某些非凸机器学习模型中,随机梯度沿负曲率方向的方差,并展示了这些方向上的随机梯度表现出强烈的分量;此外,本文提出了一种新的假设,根据这个假设,注入显式同方差噪声的普通随机梯度下降可以成功地替代梯度下降逃脱鞍点;最后,本文提出了基于相同假设的简单 SGD 步骤的第一个收敛率,此收敛率独立于问题的维度。