该论文研究了分布式优化方法中工作通讯拓扑对收敛速度的影响,并提出通过使用稀疏拓扑来提高收敛速度的方法。
Feb, 2020
这篇论文介绍了一种统一的收敛性分析方法,涵盖了许多分散式随机梯度下降方法,具有计算成本低、数据本地性和沟通效率等优点,并包括本地随机梯度下降更新和自适应网络拓扑上的同步和成对传递更新,我们推导了光滑(凸和非凸)问题的通用收敛率,并在不同的数据分布和 iid 数据设置下进行了插值。
Mar, 2020
本论文提出了分散化随机梯度下降法的新方法,并使用(非)凸优化理论建立了第一个针对分散化随机梯度下降法的稳定性和泛化保证。我们的理论结果基于少数常见且温和的假设,并揭示分散化将首次降低SGD的稳定性。通过使用多种分散化设置和基准机器学习模型,证实了我们的理论发现。
Feb, 2021
研究了具有罕见连接的分布式机器学习优化问题,提出了理论解释,解释了合作可以获得比训练单独更大的学习率,并描述了不同图形拓扑的相对优点。
Jun, 2022
本研究提出了一种名为Base-k Graph的新型拓扑结构,该结构在实现快速共识率的同时,最大度数较小,从而提高了分布式学习的收敛速度和通信效率。实验表明,采用Base-k Graph可以比现有拓扑结构更好地提高分布式学习的精度和通信效率。
May, 2023
该论文提出了一种去除了分布式训练中代理数受2的整数限制的方法,称为DSGD-CECA,它使用交流拓扑和八卦权矩阵来实现通信,达到了与当前最先进方法相同的效率,实现了任意数量的代理,并减少了每次迭代的通信负载。
Jun, 2023
本文提出 Decentralized Stochastic Gradient Descent 算法的泛化误差分析,并据此证明在凸设置下,不论选择哪种通信图,D-SGD算法的泛化界限与经典SGD算法相同,即前人论述的通信图对泛化的不利影响并不成立。
本文挑战了常规信念,提出了一种完全新的角度来理解分散学习,证明了分散随机梯度下降隐含地最小化了一种平均方向锐度感知最小化算法的损失函数,在常规非凸非 $/beta/$ -平滑设置下的这种惊人的渐近等价关系揭示了一种本质上的正则化-优化权衡和分散的三个优点。
我们研究了分布式随机梯度上升下降(D-SGDA)算法的原始-对偶广义界限,通过算法稳定性方法,在凸凹和非凸非凹环境下对分布式最小最大算法的广义界限进行了改进。我们的理论研究表明,分布式结构不会破坏D-SGDA的稳定性和广义化能力,在某些情况下可以实现和普通SGDA相同的广义化能力。此外,我们还评估了凸凹设定下D-SGDA算法的优化误差,并将其与广义间隙相平衡,以获得最佳的总体风险。最后,我们进行了多项数值实验来验证我们的理论发现。
Oct, 2023
提出一种名为AL-DSGD的邻近领导者分散梯度下降方法,通过分配权重和动态通信图,在分散式深度学习优化中加快收敛速度、降低通信开销,改善了最先进技术的测试性能。
May, 2024