BriefGPT.xyz
Ask
alpha
关键词
pipelined training
搜索结果 - 2
DAPPLE:一个用于训练大模型的流水线数据并行方法
提出了一种称为 DAPPLE 的同步训练框架,它将数据并行和管道并行相结合,采用新颖的并行化策略规划器解决了分区和放置问题,并探索了数据和管道并行的最佳混合策略。与 GPipe 相比,DAPPLE 运行时间提高了 1.6 倍的训练吞吐量,并
→
PDF
4 years ago
Pipe-SGD: 分布式深度神经网络训练的去中心化管道式 SGD 框架
本文提出一种基于 AllReduce 的分布式深度学习训练方法,并通过在四节点 GPU 集群测试,证明具有两个宽度的流水线架构可以将同步和异步训练的优点相结合,可将训练时间提高多达 5.4 倍。
PDF
6 years ago
Prev
Next