去中心化 SGD 和平均方向 SAM 在渐近情况下等价
本文提出 Decentralized Stochastic Gradient Descent 算法的泛化误差分析,并据此证明在凸设置下,不论选择哪种通信图,D-SGD 算法的泛化界限与经典 SGD 算法相同,即前人论述的通信图对泛化的不利影响并不成立。
Jun, 2023
我们研究了分布式随机梯度上升下降(D-SGDA)算法的原始 - 对偶广义界限,通过算法稳定性方法,在凸凹和非凸非凹环境下对分布式最小最大算法的广义界限进行了改进。我们的理论研究表明,分布式结构不会破坏 D-SGDA 的稳定性和广义化能力,在某些情况下可以实现和普通 SGDA 相同的广义化能力。此外,我们还评估了凸凹设定下 D-SGDA 算法的优化误差,并将其与广义间隙相平衡,以获得最佳的总体风险。最后,我们进行了多项数值实验来验证我们的理论发现。
Oct, 2023
本论文提出了分散化随机梯度下降法的新方法,并使用(非)凸优化理论建立了第一个针对分散化随机梯度下降法的稳定性和泛化保证。我们的理论结果基于少数常见且温和的假设,并揭示分散化将首次降低 SGD 的稳定性。通过使用多种分散化设置和基准机器学习模型,证实了我们的理论发现。
Feb, 2021
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021
该论文提出了分布式双随机平均梯度算法 (DSA) 来解决大规模机器学习问题,具有线性收敛特性,相对于其他分散式随机优化方法,可以减少收敛时间和处理的功能向量数量。
Jun, 2015
本研究探讨了解决分布式优化问题的多种方法,包括 EXTRA、Exact-Diffusion/D^2 和梯度跟踪算法等,研究表明这些方法在网络拓扑敏感性上相对于 DSGD 较弱。该研究针对此问题提出了一种统一的分布式算法 SUDA,并建立了 SUDA 的收敛性,实验结果证明该算法对网络拓扑较为鲁棒。
Oct, 2021
研究了分散随机梯度下降(D-SGD)算法的算法稳定性和分布特性,证明了 D-SGD 认为的共识模型具有稳定性,证明了 D-SGD 具有一般化的可行性。D-SGD 的可行性与谱间隙呈正相关,并且可以解释为什么最初的培训阶段的共识控制可以确保更好的一般化,这是 vanilla-D-SGD 的拓扑感知广义性的第一个工作。
Jun, 2022
我们集中研究具有非凸非光滑目标函数的分布式优化问题,特别是非光滑神经网络的分布式训练。我们引入一个统一框架,名为 DSM,用于分析分布式随机次梯度方法的全局收敛性。我们证明了在温和条件下,我们提出的框架的全局收敛性,通过建立生成的序列渐近逼近其相关微分纳入的轨迹。此外,我们证明了我们提出的框架包括各种现有的高效分布式次梯度方法,包括分布式随机次梯度下降(DSGD),带有梯度跟踪技术的 DSGD(DSGD-T)和带有动量的 DSGD(DSGDm)。此外,我们引入 SignSGD,使用符号映射来规范 DSGDm 中的更新方向,并证明其包含在我们提出的框架中。因此,我们的收敛结果首次证明了这些方法在应用于非光滑非凸目标时的全局收敛性。初步的数值实验表明,我们提出的框架在非光滑神经网络的训练中产生了高效的分布式次梯度方法,具有收敛性保证。
Mar, 2024
本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步,实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。
Mar, 2022