Jun, 2024

随机学习率对非凸优化中 SGD 动力学的理论分析:通过稳态分布

TL;DR使用具有随机学习率的随机梯度下降(SGD)的一种变种,研究了其收敛性质,并证明了该方法通过弱假设下的参数更新得到一个稳定分布,从而在非凸优化问题中找到全局最小值,同时评估了泛化误差。