该论文研究了分布式优化方法中工作通讯拓扑对收敛速度的影响,并提出通过使用稀疏拓扑来提高收敛速度的方法。
Feb, 2020
研究分布式一致性的随机梯度下降算法,证明收敛速度与网络拓扑的权值矩阵的标准谱间隙和数据的样本协方差矩阵的谱范数有关,证明分布式 SGD 算法在谱范数较小的数据集合上表现更好, 并限制通信量以实现数据相关的收敛速度,通过在更多节点上分散固定数据数量以最小化二次可微损失函数可提高收敛速度。
Mar, 2016
通过直接节点间合作训练的机器学习模型中,我们探讨了连接节点的网络拓扑对其性能的影响,研究了不同类型的拓扑对知识传播的作用,揭示了节点的连接性和网络性质在此过程中的不同角色,证明了知识传播不仅仅需要节点之间的弱连通性,而且较为集中的节点在传播中起到了重要作用,而紧密结合的群体则严重阻碍了知识传播。
Jul, 2023
本研究提出了一种名为 Base-k Graph 的新型拓扑结构,该结构在实现快速共识率的同时,最大度数较小,从而提高了分布式学习的收敛速度和通信效率。实验表明,采用 Base-k Graph 可以比现有拓扑结构更好地提高分布式学习的精度和通信效率。
May, 2023
通过优化混合矩阵,改进分散式学习的能源效率,该研究将问题建模为双层优化,其中底层通过图稀疏化求解,针对全连接基底拓扑提出了一种拥有保证性能的解决方案,针对一般情况提出了一种贪心启发式方法,并通过基于真实拓扑和数据集的模拟验证,结果表明该方案可以在保持训练模型质量的前提下,将最繁忙节点的能耗降低 54%-76%。
Jan, 2024
这篇论文介绍了一种统一的收敛性分析方法,涵盖了许多分散式随机梯度下降方法,具有计算成本低、数据本地性和沟通效率等优点,并包括本地随机梯度下降更新和自适应网络拓扑上的同步和成对传递更新,我们推导了光滑(凸和非凸)问题的通用收敛率,并在不同的数据分布和 iid 数据设置下进行了插值。
Mar, 2020
该研究探讨了分散式学习框架的收敛性与混合度之间的关系,并提出了一种定量衡量梯度混合度的指标以及优化方法,通过实验证明该方法能够在计算机视觉和 NLP 等任务中提高测试表现。
Apr, 2022
通过删除边可以同时解决过度压缩和过度平滑的问题,从而提高图神经网络的泛化性能,并将谱间隙优化与减少计算资源的目标相连接。
Apr, 2024
去中心化学习以网络结构、学习效果、中心性指标和知识传播为重点,通过研究三种网络拓扑和六种数据分布方法,发现全局中心性指标与学习效果相关,而局部聚类性影响较小;同时揭示了从外围到中心节点的知识转移的挑战,以及中心节点对知识传播的拉力效应;探讨了度分布对中心节点学习的积极影响以及从外围节点获取知识时的稀释效应;最后,展示了跨隔离社区的知识传播所面临的巨大挑战。
Feb, 2024
研究了分散随机梯度下降(D-SGD)算法的算法稳定性和分布特性,证明了 D-SGD 认为的共识模型具有稳定性,证明了 D-SGD 具有一般化的可行性。D-SGD 的可行性与谱间隙呈正相关,并且可以解释为什么最初的培训阶段的共识控制可以确保更好的一般化,这是 vanilla-D-SGD 的拓扑感知广义性的第一个工作。
Jun, 2022