关键词data parallelism
搜索结果 - 13
- 并行随机梯度下降的混合方法PDF9 days ago
- 分布式深度学习的二次同步规则PDF8 months ago
- 广度优先流水线并行PDF2 years ago
- 使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型PDF3 years ago
- PipeTransformer: 基于自动化弹性管道的 Transformers 分布式训练PDF3 years ago
- ICLR数据并行和稀疏性对神经网络训练的影响理解PDF4 years ago
- 序列到序列递归神经网络机器翻译的混合数据 - 模型并行训练PDF5 years ago
- 面向个性化推荐系统的深度学习推荐模型PDF5 years ago
- 基于混合精度的高可扩展深度学习训练系统:四分钟内训练 ImagenetPDF6 years ago
- 音乐椅子:基于协作物联网设备的高效实时识别PDF6 years ago
- 一种通用的分布式双坐标优化框架用于正则化损失最小化PDF8 years ago
- ICLR基于 Theano 的多 GPU 大规模视觉识别PDF10 years ago
- GPU 异步随机梯度下降加速神经网络训练PDF11 years ago
Prev
Next