Jun, 2020

GShard:通过条件计算和自动分片扩展巨型模型

TL;DR利用 GShard 能够高效地扩展神经网络规模,支持多语言机器翻译,使得能够在 4 天内用 TPU v3 加速器训练 600 亿参数的模型,并且在从 100 种语言翻译成英语方面的性能要明显优于之前的工作。