ICLRJan, 2019

通过星型凸路径,SGD 在深度学习中收敛到全局最小值

TL;DR本研究证明了随机梯度下降法 (SGD) 可训练深度神经网络,甚至可以收敛于全局最小值。这一结果得益于多个实验验证了 SGD 可以遵循恒星凸轨迹和训练损失近似于零值等性质,并以新方式揭示了 SGD 以确定性方式收敛于全局最小值。