Mar, 2021

随机性有助于驾驭崎岖的地形:在相位恢复问题中比较基于梯度下降的算法

TL;DR本文探讨了基于梯度的算法,如梯度下降、随机梯度下降、其持续变体和 Langevin 算法如何浏览非凸损失景观及其在有限样本复杂度下能否达到最佳泛化误差问题。我们以高维相位恢复问题的损失景观为典型例子,证明了随机梯度下降算法可以在控制参数区域达到完美的泛化性能,而梯度下降算法则不能。我们还运用动力学均场理论从统计物理学的角度分析了这些算法在连续时间、以热启动方式和大系统规模下的全部轨迹,并揭示了景观和算法的若干有趣特性,如梯度下降算法可以从更少的初始信息获得更好的泛化性能。