EMNLPOct, 2022
拥有 100 万 GPU 小时,应该如何选择训练语言模型?
What Language Model to Train if You Have One Million GPU Hours?
Teven Le Scao, Thomas Wang, Daniel Hesslow, Lucile Saulnier, Stas Bekman...
TL;DR本研究旨在构建一个大型语言模型 BLOOM,对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究,并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。