BriefGPT.xyz
大模型
Ask
alpha
关键词
tpu v3 accelerators
搜索结果 - 1
GShard:通过条件计算和自动分片扩展巨型模型
利用 GShard 能够高效地扩展神经网络规模,支持多语言机器翻译,使得能够在 4 天内用 TPU v3 加速器训练 600 亿参数的模型,并且在从 100 种语言翻译成英语方面的性能要明显优于之前的工作。
PDF
4 years ago
Prev
Next