Jun, 2021

随机梯度下降和随机八卦算法中的 Nesterov 加速算法连续化视角

TL;DR本文提出了连续 Nesterov 加速法,将 Nesterov 加速法的变量用连续时间参数索引,使两个变量连续混合,其间隔时间内随机进行梯度步骤。我们证明了该变体具有与 Nesterov 原始加速法相似的收敛率,并且具有连续和离散框架的最佳性能。我们展示了连续 Nesterov 加速法在随机 / 确定梯度及其噪声下的应用,并将异步 gossip 算法的问题表示为某种能量函数的随机最小化问题,提供了第一个基于该连续框架的异步 gossip 加速定理。