BriefGPT.xyz
Ask
alpha
关键词
communication time
搜索结果 - 3
利用稀疏性在剪枝神经网络中优化大模型训练
本文提出利用稀疏子网络以优化内存利用和通信的方法来加速深度学习中的数据和层间并行算法,并将其融入 AxoNN,实验证明在 512 NVIDIA V100 GPU 上,相比于 AxoNN,DeepSpeed-3D 和 Sputnik,优化后的
→
PDF
a year ago
MATCHA: 基于匹配分解采样的分布式随机梯度下降加速算法
本文研究了分布式训练中通常遇到的误差 - 运行时权衡问题,提出了 MATCHA 算法,该算法能够在任意网络拓扑结构下实现误差 - 运行时权衡的双赢,并且通过将拓扑结构分解为匹配来实现节点之间的并行交流。通过实验验证,MATCHA 算法在达到
→
PDF
5 years ago
NIPS
TernGrad: 用三值梯度减少分布式深度学习通信
本文提出 TernGrad,使用三元梯度来加速数据并行的分布式深度学习,结果表明可在不损失准确率的前提下缩减通信时间并提高收敛性能,使得多种深度神经网络的速度显著提升。
PDF
7 years ago
Prev
Next