Swing:用于高带宽 Allreduce 的捷径环
本文提出了一种新算法 TornadoAggregate,通过优化环形网络结构解决了联邦学习中生产环境下通信可扩展性和节点时间差异性的问题,实验结果表明,该算法最高可将测试准确度提高 26.7% 且达到近线性可扩展性。
Dec, 2020
本文介绍了 TACOS,一种自动化的拓扑感知集体算法合成器,可应用于任意输入网络拓扑结构,优化了通信效率,加速了 All-Reduce 算法,适用于分布式训练等领域。
Apr, 2023
梯度压缩通过发送更少的值和对应的索引(通常通过 Allgather)来减轻分布式深度学习中昂贵的通信成本。本文提出了一种与 Allreduce 兼容的 Topk 压缩器,在某些网络配置中比 Allgather 表现更好。我们开发了一种灵活的通信策略,根据当前设置中哪个集合操作最优,切换 AG 和 AR 之间的选择,并将并行效率和统计效率的帕累托关系建模为一个多目标优化问题,以动态调整压缩比并加速训练,同时仍收敛于高准确性。
Dec, 2023
使用批次大小控制和标签平滑来解决大批次训练不稳定性问题;使用 2D-Torus all-reduce 解决梯度同步过程中的开销,实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.
Nov, 2018
本文提出了 O$k$-Top$k$ 的方案,将新型稀疏同时求和算法与去中心化并行随机梯度下降(SGD)optimizer 进行集成,达到与总结所有技术相当的模型精度,与优化密集型和最先进的稀疏同时求和相比,O$k$-Top$k$ 更具扩展性并显着提高了训练吞吐量。
Jan, 2022
本文介绍了一种基于编码理论的新技术,名为‘Short-Dot’,通过引入冗余计算来解决分布式计算中遇到的异常缓慢的处理器(即‘stragglers’)问题,并且相较于传统方案,Short-Dot 能够在减少计算、存储和通讯成本的同时提升计算速度和效率。
Apr, 2017
在分布式计算系统中,通过编码存储的数据可以减少迟滞服务器造成的延迟,并减少在洗牌阶段的服务器之间的通信负载。本文通过内部的重复编码来提高外部最大距离可分离(MDS)码的速率,进而提高洗牌阶段的多播机会,从而改善了最佳延迟和通信开销之间的平衡。
Aug, 2018
本文探讨了在 map-reduce 计算中并行性和通信成本之间的权衡问题,并引入了单轮 map-reduce 计算问题的模型,以发现以分配给一个缩小器的最大输入数为函数的通信成本下界。作者对三个问题进行了分析:找到两个距离为 $d$ 的字符串、在较大的图形中查找三角形和其他模式以及矩阵乘法。
Jun, 2012