Mar, 2022

训练最优的大型语言模型

TL;DR本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量,并发现对于计算优化的训练,模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla,该模型在大范围的下游评估任务中均匀且显著地优于 Gopher,GPT-3,Jurassic-1 和 Megatron-Turing NLG。