Nov, 2018

Mesh-TensorFlow:用于超级计算机的深度学习

TL;DR本文介绍了 Mesh-TensorFlow,一种用于实现一般分布式张量计算的语言,以代替传统的数据并行策略,从而支持更大的模型训练和更高的效率。通过应用 Mesh-TensorFlow 实现了一个数据并行、模型并行的 Transformer 模型,最终在 WMT'14 英法翻译任务和亿级语言建模基准测试上实现了最优性能。