Jun, 2024
带有延迟的分布式随机梯度下降:基于随机延迟微分方程的框架
Distributed Stochastic Gradient Descent with Staleness: A Stochastic
Delay Differential Equation Based Framework
TL;DR基于随机时滞微分方程(SDDE)和概率到达梯度泊松近似,提出了统一框架来分析和优化异步分布式随机梯度下降(ASGD)的收敛性,揭示了ASGD的阻尼系数、延迟统计特性和收敛条件,以及调度策略的优化。同时表明增加激活的工作人员数量并不一定加速分布式随机梯度下降,而较大程度的时滞将导致其发散。通过数值实验验证了SDDE框架在复杂学习任务中具有的潜力。