May, 2021

M6-T:探索稀疏专家模型及其进展

TL;DR本文研究了稀疏专家模型中的关键因素,提出了专家原型法以改善模型质量,同时将模型规模扩大到 1 万亿参数,实现了与 TPU 相同的加速。