Jun, 2023

通过马尔可夫链实现常数步长 SGD 的收敛和集中特性

TL;DR本文研究在强凸光滑目标下使用常数步长随机梯度下降的优化问题,通过马洛夫链的视角对其性质进行研究,证明了当梯度噪音分布满足一定条件时,该迭代过程以总变差距离或 Wasserstein-2 距离收敛于一个不变分布,同时证明了该极限分布具有次高斯或次指数分布的浓度性质;最后针对一些具体应用,推导出了高可信度界限。