ICMLDec, 2021

GLaM: 使用专家混合方法高效扩展语言模型

TL;DR本文提出了一种名为 GLaM(通用语言模型)的语言模型,采用稀疏的专家混合体系结构,可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数,性能优于 GPT-3,且训练花费和计算资源开销较小。