BriefGPT.xyz
大模型
Ask
alpha
关键词
gshard
搜索结果 - 2
针对大规模多语言 ASR 的端到端模型扩展
本篇研究旨在研究 15 种任务下,训练语言模型的容量瓶颈,并发现通过增加模型参数,添加深度,以及使用大型编码器等方法可以增加训练效率。
PDF
3 years ago
GShard:通过条件计算和自动分片扩展巨型模型
利用 GShard 能够高效地扩展神经网络规模,支持多语言机器翻译,使得能够在 4 天内用 TPU v3 加速器训练 600 亿参数的模型,并且在从 100 种语言翻译成英语方面的性能要明显优于之前的工作。
PDF
4 years ago
Prev
Next