Swing：用于高带宽 Allreduce 的捷径环

Jan, 2024

Swing：用于高带宽 Allreduce 的捷径环

Swing: Short-cutting Rings for Higher Bandwidth Allreduce

Daniele De Sensi, Tommaso Bonato, David Saam, Torsten Hoefler

TL;DR改进 Torus 网络上的所有规约性能，引入了 Swing 算法，通过在 Torus 方向之间摇摆，保持通信节点之间的较低距离，从而实现了在不同类型的 Torus 和类 Torus 拓扑结构上优于现有的所有规约算法的性能，矢量范围从 32B 到 128MiB，无论其形状和大小。

Abstract

The allreduce collective operation accounts for a significant fraction of the runtime of workloads running on distributed systems. One factor determining its performance is the distance between →

allreduce torus networks swing algorithm communicating nodes performance

发现论文，激发创造

集体通信的带宽最优流水线调度

本文提出了一种强多项式时间算法，可以在任何网络拓扑上生成带宽优化的全局 / 归约散播，算法构建了流水线调度，实现了在给定网络拓扑上最佳的带宽性能。

May, 2023

基于环形架构的 TornadoAggregate：精确可扩展的联邦学习

本文提出了一种新算法 TornadoAggregate，通过优化环形网络结构解决了联邦学习中生产环境下通信可扩展性和节点时间差异性的问题，实验结果表明，该算法最高可将测试准确度提高 26.7% 且达到近线性可扩展性。

Dec, 2020

TACOS：分布式训练拓扑感知集合算法合成器

本文介绍了 TACOS，一种自动化的拓扑感知集体算法合成器，可应用于任意输入网络拓扑结构，优化了通信效率，加速了 All-Reduce 算法，适用于分布式训练等领域。

Apr, 2023

灵活通信实现不确定网络下的最优分布式学习

梯度压缩通过发送更少的值和对应的索引（通常通过 Allgather）来减轻分布式深度学习中昂贵的通信成本。本文提出了一种与 Allreduce 兼容的 Topk 压缩器，在某些网络配置中比 Allgather 表现更好。我们开发了一种灵活的通信策略，根据当前设置中哪个集合操作最优，切换 AG 和 AR 之间的选择，并将并行效率和统计效率的帕累托关系建模为一个多目标优化问题，以动态调整压缩比并加速训练，同时仍收敛于高准确性。

Dec, 2023

闪电般的 ImageNet/ResNet-50 训练：大规模分布式 SGD

使用批次大小控制和标签平滑来解决大批次训练不稳定性问题；使用 2D-Torus all-reduce 解决梯度同步过程中的开销，实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.

Nov, 2018

分布式深度学习的近似最优稀疏全约简算法

本文提出了 O$k$-Top$k$ 的方案，将新型稀疏同时求和算法与去中心化并行随机梯度下降（SGD）optimizer 进行集成，达到与总结所有技术相当的模型精度，与优化密集型和最先进的稀疏同时求和相比，O$k$-Top$k$ 更具扩展性并显着提高了训练吞吐量。

Jan, 2022

Short-Dot”: 使用编码短点积分布式计算大规模线性变换

本文介绍了一种基于编码理论的新技术，名为‘Short-Dot’，通过引入冗余计算来解决分布式计算中遇到的异常缓慢的处理器（即‘stragglers’）问题，并且相较于传统方案，Short-Dot 能够在减少计算、存储和通讯成本的同时提升计算速度和效率。

Apr, 2017

具有 Stragglers 的 Map-Shuffle-Reduce 系统的延迟 - 通信权衡改进

在分布式计算系统中，通过编码存储的数据可以减少迟滞服务器造成的延迟，并减少在洗牌阶段的服务器之间的通信负载。本文通过内部的重复编码来提高外部最大距离可分离（MDS）码的速率，进而提高洗牌阶段的多播机会，从而改善了最佳延迟和通信开销之间的平衡。

Aug, 2018

分布式优化的无偏单尺度和多尺度量化器

本文提出了一组全局归约兼容的梯度压缩方案，通过压缩梯度实现降低通信开销的目的，并取得比当前深度学习框架提供的方法更好的表现效果。

Sep, 2021

Map-Reduce 计算成本的上下界

本文探讨了在 map-reduce 计算中并行性和通信成本之间的权衡问题，并引入了单轮 map-reduce 计算问题的模型，以发现以分配给一个缩小器的最大输入数为函数的通信成本下界。作者对三个问题进行了分析：找到两个距离为 $d$ 的字符串、在较大的图形中查找三角形和其他模式以及矩阵乘法。

Jun, 2012