分散多智能体学习的通信高效负载平衡

MMMay, 2024

分散多智能体学习的通信高效负载平衡

Communication-Efficient Training Workload Balancing for Decentralized Multi-Agent Learning

Seyed Mahmoud Sajjadi Mohammadabadi, Lei Yang, Feng Yan, Junshan Zhang

TL;DR分散多智能体学习（DML）通过保护数据隐私实现协作模型训练。然而，代理资源的内在异质性（计算、通信和任务大小）可能导致训练时间的巨大变化。为减少在异质环境中的训练时间，我们提出了一种用于分散多智能体学习的通信高效的训练工作负载平衡方法（ComDML），通过分散方法平衡代理之间的工作负载。ComDML 利用局部损失切分训练，使较慢的代理将部分工作负载分配给较快的代理进行并行更新。为最小化整体训练时间，ComDML 通过综合考虑代理的通信和计算能力来优化工作负载平衡，其中涉及整数规划。我们开发了一种动态分散配对调度器来有效配对代理并确定最佳的分担量。我们证明，在 ComDML 中，较慢和较快的代理模型都能收敛于凸和非凸函数。此外，对流行数据集（CIFAR-10、CIFAR-100 和 CINIC-10）及其非 I.I.D. 变体，以及 ResNet-56 和 ResNet-110 等大模型进行了广泛的实验，结果表明 ComDML 相对于现有方法能够显著减少整体训练时间，同时保持模型准确性。ComDML 在异质环境中表现出鲁棒性，并且可以无缝集成隐私措施以增强数据保护。

Abstract

decentralized multi-agent learning (DML) enables collaborative model training while preserving data privacy. However, inherent heterogeneity in agents' resources (computation, communication, and task size) may le

decentralized multi-agent learning workload balancing data privacy communication-efficient training heterogeneous environments

发现论文，激发创造

可靠分布式压缩机器学习模型训练

提出了 DepL 框架，用于可靠的学习编排，能够在最小的培训成本下以目标概率达到目标学习质量，优于现有技术 27% 以上，并与最佳结果相近。

Feb, 2024

分散式联邦学习：平衡通讯与计算成本

提出一种采用分布式训练（DFL）的通用分散式最随机梯度下降（SGD）框架，它可以解决在多个节点中进行通信和本地更新的平衡，具有压缩通信和强收敛保证的特点。

Jul, 2021

GADMM: 快速且通信高效的分布式机器学习框架

本文提出一种快速且高效的分布式机器学习框架，名为 Group Alternating Direction Method of Multipliers (GADMM)，该算法在分布式 topology 中解决问题，且与现有算法相比，实现更快的收敛和更高的通讯效率；此外，还提出了 GADMM 的变体，即 Dynamic GADMM (D-GADMM)，并证明了其在时间变化的网络拓扑下的收敛性。

Aug, 2019

LoCoDL: 通讯高效的分布式学习与本地训练压缩

分布式优化和学习，尤其是在联邦学习的现代框架中，通信对于慢速和昂贵的问题至关重要。我们介绍了一种名为 LoCoDL 的通信高效算法，它利用了本地训练和压缩这两种常用且有效的技术，通过降低通信频率和发送短的比特流而不是完整的浮点数向量。LoCoDL 适用于包括广泛使用的稀疏化和量化方法在内的大类无偏压缩器。在具有强凸函数的一般异构情况下，LoCoDL 可以从本地训练和压缩中获益，并且在功能条件数和模型维度方面具有双重加速的通信复杂度。实践中证实，LoCoDL 优于现有算法。

Mar, 2024

高效通信的大规模分布式深度学习综述

这篇文章调查了 2018 年至 2023 年期间关于算法和技术的文献，旨在实现大规模分布式深度学习中的高效通信，包括算法、框架和基础设施。具体而言，我们首先介绍了在大规模分布式训练中模型同步和通信数据压缩方面的高效算法。接下来，我们介绍了与分布式训练和推理中资源分配和任务调度相关的高效策略。此后，我们介绍了现代通信基础设施中使用的最新技术，重点研究了大规模和异构环境下通信开销的影响。最后，我们通过对大规模语言模型的分布式训练进行案例研究，展示了如何在实际情况中应用这些技术。这篇文章旨在为研究人员提供对大规模分布式深度学习的现状全面的理解，并揭示在这一领域中通信高效解决方案的有希望的未来研究方向。

Apr, 2024

高效通讯的分布式鲁棒性分布式学习

本文介绍了一种分布式学习算法 —— 去中心化单环梯度上升 / 下降算法（AD-GDA），以解决设备之间数据分布不均导致合作训练模型性能下降的问题，并采用压缩共识方案提高通信效率，并给出了平滑凸和非凸损失函数的收敛性保证。

May, 2022

DiLoCo: 分布式低通信语言模型训练

利用分布式优化算法 DiLoCo，可以在受连接限制的设备群组中训练语言模型，具有与完全同步优化相媲美的性能，但通信开销降低了 500 倍，并且对于数据分布和资源可用性的变化都具有良好的鲁棒性。

Nov, 2023

DIMAT：分散迭代合并训练用于深度学习模型

从先进的模型合并技术中汲取灵感，我们引入了分布式迭代融合和训练（DIMAT）范式 —— 一种新颖的分布式深度学习框架，它通过使用高级模型合并技术如激活匹配，使每个代理在本地数据上训练，并定期与相邻代理合并，直到达到收敛。实证分析验证了 DIMAT 在多个数据集上的计算机视觉任务中相对于基线方法的优越性，结果表明 DIMAT 在使用独立同分布（IID）和非 IID 数据时以更快的速度和更高的初始准确性获得收敛，并且通信开销更低。DIMAT 范式为未来的分布式学习提供了新的机会，增强了其适应真实世界的稀疏和轻量级通信和计算需求。

Apr, 2024

分散和终身自适应的多智能体协作学习

提出了 DeLAMA 算法，它是一种具有动态协作图的分散式多智能体协同学习算法，能够促进自主协作关系学习和适应动态任务，实现了 MSE 减少 98.80% 和分类准确率提高 188.87%，为未来建立智能、分散式和动态多智能体系统提供了基础技术。

Mar, 2024

基于分散数据通信高效学习深度网络

Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.

Feb, 2016