EMNLPOct, 2022

拥有 100 万 GPU 小时,应该如何选择训练语言模型?

TL;DR本研究旨在构建一个大型语言模型 BLOOM,对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究,并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。