BriefGPT.xyz
Ask
alpha
关键词
diffusion approximations
搜索结果 - 1
非凸优化中动量 SGD 的扩散近似理论
本文通过对非凸优化问题的扩散逼近,分析了 Momentum 随机梯度下降算法的算法行为,发现该算法对于强鞍点的逃逸具有帮助,但在优化器的周围区域内妨碍了收敛(未进行步长退火或动量退火),本文的理论发现部分验证了 MSGD 在训练深度神经网络
→
PDF
6 years ago
Prev
Next