DiLoCo: 分布式低通信语言模型训练
分布式优化和学习,尤其是在联邦学习的现代框架中,通信对于慢速和昂贵的问题至关重要。我们介绍了一种名为 LoCoDL 的通信高效算法,它利用了本地训练和压缩这两种常用且有效的技术,通过降低通信频率和发送短的比特流而不是完整的浮点数向量。LoCoDL 适用于包括广泛使用的稀疏化和量化方法在内的大类无偏压缩器。在具有强凸函数的一般异构情况下,LoCoDL 可以从本地训练和压缩中获益,并且在功能条件数和模型维度方面具有双重加速的通信复杂度。实践中证实,LoCoDL 优于现有算法。
Mar, 2024
通过共享模块的路径分布计算,结合降低通信的优化算法,在机器学习领域提出了一种模块化架构和训练方法,称为 DIstributed PAth COmposition (DiPaCo),该方法在训练过程中实现对集群中性能差异较大且网络质量较差的机器进行分布式训练,从而加速了大规模学习的效率。
Mar, 2024
Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.
Feb, 2016
基于限制带宽的集群,我们提出了一种名为 CO2 的新方法,通过引入局部更新和异步通信实现分布式数据并行训练的完全重叠,从而实现大规模训练的高可扩展性。我们还提出了降低收敛性和训练稳定性的过时惩罚和外部动能裁剪技术。通过大量实验验证了 CO2 在计算机视觉和自然语言处理领域的各种任务上的收敛性、泛化性和可伸缩性,无论是在具有 800Gbps RDMA 还是 80Gbps TCP/IP 的集群中,CO2 都表现出卓越的能力来大幅提高可扩展性。
Jan, 2024
提出一种名为 LocalNewton 的分布式二阶算法,使用本地平均法,通过使用本地存储的数据和模型,让工作机器每个迭代更新其模型并在许多本地迭代后将模型传输给主节点。使用新颖的基于矩阵聚焦的技术,提出自适应方案选择本地迭代次数 L,使用实验表明相对于现有算法该方法可以显著减少通信次数和运行时间。
May, 2021
大型语言模型通常需要较大的内存来训练,但低内存优化(LOMO)技术通过引入自适应学习率以及矩阵分解等方法,降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
Oct, 2023
这篇论文介绍了 CoLLiE,一种高效的库,通过 3D 并行性、参数高效微调方法和优化器,如 Lion、Adan、Sophia、LOMO 和 AdaLomo,促进了大型语言模型的协作训练。CoLLiE 在预训练和微调场景中证明了其卓越的训练效率,并在吞吐量方面进行了综合比较各种优化器和 PEFT 方法。
Dec, 2023
分散多智能体学习(DML)通过保护数据隐私实现协作模型训练。然而,代理资源的内在异质性(计算、通信和任务大小)可能导致训练时间的巨大变化。为减少在异质环境中的训练时间,我们提出了一种用于分散多智能体学习的通信高效的训练工作负载平衡方法(ComDML),通过分散方法平衡代理之间的工作负载。ComDML 利用局部损失切分训练,使较慢的代理将部分工作负载分配给较快的代理进行并行更新。为最小化整体训练时间,ComDML 通过综合考虑代理的通信和计算能力来优化工作负载平衡,其中涉及整数规划。我们开发了一种动态分散配对调度器来有效配对代理并确定最佳的分担量。我们证明,在 ComDML 中,较慢和较快的代理模型都能收敛于凸和非凸函数。此外,对流行数据集(CIFAR-10、CIFAR-100 和 CINIC-10)及其非 I.I.D. 变体,以及 ResNet-56 和 ResNet-110 等大模型进行了广泛的实验,结果表明 ComDML 相对于现有方法能够显著减少整体训练时间,同时保持模型准确性。ComDML 在异质环境中表现出鲁棒性,并且可以无缝集成隐私措施以增强数据保护。
May, 2024