AntDT: 一种自适应的分布式培训框架用于领导者和延迟节点

Apr, 2024

AntDT: 一种自适应的分布式培训框架用于领导者和延迟节点

AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes

Youshao Xiao, Lin Ju, Zhenglei Zhou, Siyuan Li, Zhaoxin Huan...

TL;DR该论文提出了一个统一的分布式训练框架 AntDT，用于自适应解决分布式训练中的延迟问题，并通过实验证明其在训练效率方面的优势。

Abstract

Many distributed training techniques like Parameter Server and AllReduce have been proposed to take advantage of the increasingly large data and rich features. However, stragglers frequently occur in

distributed training stragglers antdt framework training efficiency

发现论文，激发创造

随机网络上的在线分布式学习

在多智能体系统中，为解决分布式学习问题，本研究提出了一种名为 DOT-ADMM 的算法，通过在线学习、异步智能体计算、不稳定与受限通信以及近似本地计算等方法，保证了算法的收敛性和稳健性。

Sep, 2023

强健且通信高效的协作学习

本文提出了一种名为 QuanTimed-DSGD 的新型分布式渐进优化算法，通过调整每个节点在算法每一步中本地计算梯度的截止时间和节点间交换量化本地模型的机制来解决分布式计算中经常遇到的滞后和通信效率低的问题，数值评估结果表明该算法与最先进的分布式优化方法相比，运行时间可提速至多 3 倍。

Jul, 2019

局部更新 SGD 中的最佳错误 - 运行时间平衡的自适应通信策略

本文介绍 AdaComm，一种自适应通信策略，可以更快地训练深度神经网络，使大规模机器学习训练更 robust 且具有更快的收敛速度。

Oct, 2018

分布式机器学习基于异构边缘系统

提出 ADSP 参数同步方案，解决了分布式机器学习中参数同步与边缘设备的异构性问题，通过策略性地决定每个工作节点提交模型更新的时间点，不仅确保了全局模型收敛，而且加快了收敛速度。

Nov, 2019

无线通信与网络的去中心化学习

本文介绍了针对网络中的图形数据处理的分散式学习算法，通过 ADMM 迭代最小化来得到所需的并行程度，并通过案例研究阐明了分散式学习框架对于当代无线通信和网络任务的影响。

Mar, 2015

高效通讯的分布式鲁棒性分布式学习

本文介绍了一种分布式学习算法 —— 去中心化单环梯度上升 / 下降算法（AD-GDA），以解决设备之间数据分布不均导致合作训练模型性能下降的问题，并采用压缩共识方案提高通信效率，并给出了平滑凸和非凸损失函数的收敛性保证。

May, 2022

GADMM: 快速且通信高效的分布式机器学习框架

本文提出一种快速且高效的分布式机器学习框架，名为 Group Alternating Direction Method of Multipliers (GADMM)，该算法在分布式 topology 中解决问题，且与现有算法相比，实现更快的收敛和更高的通讯效率；此外，还提出了 GADMM 的变体，即 Dynamic GADMM (D-GADMM)，并证明了其在时间变化的网络拓扑下的收敛性。

Aug, 2019

DIMAT：分散迭代合并训练用于深度学习模型

从先进的模型合并技术中汲取灵感，我们引入了分布式迭代融合和训练（DIMAT）范式 —— 一种新颖的分布式深度学习框架，它通过使用高级模型合并技术如激活匹配，使每个代理在本地数据上训练，并定期与相邻代理合并，直到达到收敛。实证分析验证了 DIMAT 在多个数据集上的计算机视觉任务中相对于基线方法的优越性，结果表明 DIMAT 在使用独立同分布（IID）和非 IID 数据时以更快的速度和更高的初始准确性获得收敛，并且通信开销更低。DIMAT 范式为未来的分布式学习提供了新的机会，增强了其适应真实世界的稀疏和轻量级通信和计算需求。

Apr, 2024

分布式 TD 学习的原始对偶视角

本文研究了分布式时间差异学习在网络化的多智能体马尔可夫决策过程中的应用，提出了基于分布式优化算法的方法，可以解释为在满足零空间约束的原始 - 对偶普通微分方程动力系统上的解，基于该系统在满足零空间约束的指数收敛行为，考察了在不同的分布式 TD 学习场景下，采用恒定和衰减步长，以及独立同分布和马尔可夫观测模型的最终迭代行为。与现有方法不同的是，该算法不需要假设底层通信网络结构为双随机矩阵。

Oct, 2023

分散多智能体学习的通信高效负载平衡

分散多智能体学习（DML）通过保护数据隐私实现协作模型训练。然而，代理资源的内在异质性（计算、通信和任务大小）可能导致训练时间的巨大变化。为减少在异质环境中的训练时间，我们提出了一种用于分散多智能体学习的通信高效的训练工作负载平衡方法（ComDML），通过分散方法平衡代理之间的工作负载。ComDML 利用局部损失切分训练，使较慢的代理将部分工作负载分配给较快的代理进行并行更新。为最小化整体训练时间，ComDML 通过综合考虑代理的通信和计算能力来优化工作负载平衡，其中涉及整数规划。我们开发了一种动态分散配对调度器来有效配对代理并确定最佳的分担量。我们证明，在 ComDML 中，较慢和较快的代理模型都能收敛于凸和非凸函数。此外，对流行数据集（CIFAR-10、CIFAR-100 和 CINIC-10）及其非 I.I.D. 变体，以及 ResNet-56 和 ResNet-110 等大模型进行了广泛的实验，结果表明 ComDML 相对于现有方法能够显著减少整体训练时间，同时保持模型准确性。ComDML 在异质环境中表现出鲁棒性，并且可以无缝集成隐私措施以增强数据保护。

May, 2024