SparCML:用于机器学习的高性能稀疏通信
提出了 SparDL,一种灵活而高效的稀疏通信框架,使用 Spar-Reduce-Scatter 算法来解决分布式深度学习中的梯度积累问题,并使用 Spar-All-Gather 算法进一步减少通信复杂度并调整延迟和带宽成本的比例,大量实验证明其卓越性能。
Apr, 2023
通过针对机器学习中常见程序设计模式进行设计,使用 GraphLab 可以实现异步迭代算法的紧凑表达,同时保证数据一致性和高并行性能,将并行性能优化的提升应用于大规模实际问题中,并取得了很好的表现。
Aug, 2014
本文提出了 O$k$-Top$k$ 的方案,将新型稀疏同时求和算法与去中心化并行随机梯度下降(SGD)optimizer 进行集成,达到与总结所有技术相当的模型精度,与优化密集型和最先进的稀疏同时求和相比,O$k$-Top$k$ 更具扩展性并显着提高了训练吞吐量。
Jan, 2022
本研究提出了一种名为 Linear Pipelining(LP)的新型集合操作技术,用于在神经网络的并行训练中降低通信成本。 对 BSP-SGD 等现有方法进行了改进,并在实践中证明该方法降低了通信瓶颈,同时保持 BSP-SGD 吸引人的收敛属性。
Nov, 2016
本文提出了一种名为 Sparse Continual Learning(SparCL)的新框架,通过权重稀疏性、数据效率和梯度稀疏性的协同作用来实现训练加速和准确性保持,并且在资源受限的环境下,基于稀疏性的连续学习可以实现成本效益。
Sep, 2022
SpaFL 提出了一个通信高效的联邦学习框架,优化了稀疏模型结构来避免大规模通信和计算资源消耗,通过定义可训练的阈值来剪枝连接参数以实现结构化稀疏性,只通过服务器和客户端之间的阈值通信来学习如何剪枝,利用全局阈值提取聚合参数重要性来更新模型参数,并通过推导 SpaFL 的泛化界限,证明了稀疏性与性能之间的关系,实验结果表明 SpaFL 在准确性方面改进的同时相比稀疏基准需要更少的通信和计算资源。
Jun, 2024
梯度压缩通过发送更少的值和对应的索引(通常通过 Allgather)来减轻分布式深度学习中昂贵的通信成本。本文提出了一种与 Allreduce 兼容的 Topk 压缩器,在某些网络配置中比 Allgather 表现更好。我们开发了一种灵活的通信策略,根据当前设置中哪个集合操作最优,切换 AG 和 AR 之间的选择,并将并行效率和统计效率的帕累托关系建模为一个多目标优化问题,以动态调整压缩比并加速训练,同时仍收敛于高准确性。
Dec, 2023
通过使用决策树和深度强化学习技术,本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案,进一步对比了传统的启发式方法,结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。
Jun, 2024