SparCML：用于机器学习的高性能稀疏通信

Feb, 2018

SparCML：用于机器学习的高性能稀疏通信

SparCML: High-Performance Sparse Communication for Machine Learning

Cedric Renggli, Saleh Ashkboos, Mehdi Aghagolzadeh, Dan Alistarh, Torsten Hoefler

TL;DR运用稀疏输入数据设计通信协议，使得机器学习与 MPI 协议衔接，从而实现高可扩展性。

Abstract

Applying machine learning techniques to the quickly growing data in science and industry requires highly-scalable algorithms. Large datasets are most commonly processed "→

machine learning scalable algorithms data parallel sparse input data communication protocols

发现论文，激发创造

SparDL：高效稀疏通信的分布式深度学习训练

提出了 SparDL，一种灵活而高效的稀疏通信框架，使用 Spar-Reduce-Scatter 算法来解决分布式深度学习中的梯度积累问题，并使用 Spar-All-Gather 算法进一步减少通信复杂度并调整延迟和带宽成本的比例，大量实验证明其卓越性能。

Apr, 2023

图神经网络训练中的通信减少

本文介绍了一系列用于训练图神经网络的并行算法，可以通过优化通信来减少稀疏矩阵训练的通信成本，对于多个数据集上的测试结果表明其有效性。

May, 2020

GraphLab: 并行机器学习的新框架

通过针对机器学习中常见程序设计模式进行设计，使用 GraphLab 可以实现异步迭代算法的紧凑表达，同时保证数据一致性和高并行性能，将并行性能优化的提升应用于大规模实际问题中，并取得了很好的表现。

Aug, 2014

无线网络上通信高效的分布式学习原理与应用

该研究论文总结了与机器学习相关的通信和 ML 原则，并提出了具有选定用例的通信高效和分布式学习框架。

Aug, 2020

分布式深度学习的近似最优稀疏全约简算法

本文提出了 O$k$-Top$k$ 的方案，将新型稀疏同时求和算法与去中心化并行随机梯度下降（SGD）optimizer 进行集成，达到与总结所有技术相当的模型精度，与优化密集型和最先进的稀疏同时求和相比，O$k$-Top$k$ 更具扩展性并显着提高了训练吞吐量。

Jan, 2022

大规模神经网络训练中的高效通信

本研究提出了一种名为 Linear Pipelining（LP）的新型集合操作技术，用于在神经网络的并行训练中降低通信成本。对 BSP-SGD 等现有方法进行了改进，并在实践中证明该方法降低了通信瓶颈，同时保持 BSP-SGD 吸引人的收敛属性。

Nov, 2016

SparCL：边缘稀疏持续学习

本文提出了一种名为 Sparse Continual Learning（SparCL）的新框架，通过权重稀疏性、数据效率和梯度稀疏性的协同作用来实现训练加速和准确性保持，并且在资源受限的环境下，基于稀疏性的连续学习可以实现成本效益。

Sep, 2022

SpaFL: 带有稀疏模型和低计算开销的高效联邦学习

SpaFL 提出了一个通信高效的联邦学习框架，优化了稀疏模型结构来避免大规模通信和计算资源消耗，通过定义可训练的阈值来剪枝连接参数以实现结构化稀疏性，只通过服务器和客户端之间的阈值通信来学习如何剪枝，利用全局阈值提取聚合参数重要性来更新模型参数，并通过推导 SpaFL 的泛化界限，证明了稀疏性与性能之间的关系，实验结果表明 SpaFL 在准确性方面改进的同时相比稀疏基准需要更少的通信和计算资源。

Jun, 2024

灵活通信实现不确定网络下的最优分布式学习

梯度压缩通过发送更少的值和对应的索引（通常通过 Allgather）来减轻分布式深度学习中昂贵的通信成本。本文提出了一种与 Allreduce 兼容的 Topk 压缩器，在某些网络配置中比 Allgather 表现更好。我们开发了一种灵活的通信策略，根据当前设置中哪个集合操作最优，切换 AG 和 AR 之间的选择，并将并行效率和统计效率的帕累托关系建模为一个多目标优化问题，以动态调整压缩比并加速训练，同时仍收敛于高准确性。

Dec, 2023

Misam: 使用机器学习在稀疏稀疏矩阵乘法的数据流选择

通过使用决策树和深度强化学习技术，本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案，进一步对比了传统的启发式方法，结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。

Jun, 2024