Feb, 2024

用广义的布雷格曼散度驯服非凸随机镜像下降

TL;DR该论文重新审视了当今非凸优化设置中随机镜像下降(Stochastic Mirror Descent,SMD)的收敛性。通过支持一般距离生成函数(distance generating function,DGF)的新的非凸 SMD 收敛分析,该论文克服了先前结果对于具有光滑连续的梯度的可微性 DGF 的限制,并仅依赖于标准假设。此外,该论文通过 Bregman 前向 - 后向包络建立了收敛性,该包络是比常用的梯度映射的平方范数更强的度量。进一步,该论文将结果扩展到在次高斯噪声下的高概率收敛和在广义 Bregman Proximal Polyak-Lojasiewicz 条件下的全局收敛。此外,通过利用非光滑 DGFs,我们展示了改进的 SMD 理论在各种非凸机器学习任务中的优势。值得注意的是,在非凸差分隐私(differentially private,DP)学习的背景下,我们的理论提供了一个(几乎)维度无关的效用界算法。对于训练线性神经网络的问题,我们开发了可证明收敛的随机算法。