Apr, 2023

Cerebras-GPT:基于 Cerebras 晶片集群训练的优化开放式云算模型

TL;DR通过高效的预训练和扩展、开放数据集和工具来改善大语言模型的最近研究进展;我们将这些进展结合起来,推出了 Cerebras-GPT,这是一个从 111M 扩展到 13B 参数的开放计算最优语言模型家族;我们在 Eleuther Pile 数据集上训练 Cerebras-GPT 模型,并使用 DeepMind Chinchilla 规则进行高效预训练,比较 Cerebras-GPT 和其他公开可用模型,以展示 Cerebras-GPT 上所有模型均在预训练和下游目标上具有最先进的训练效率。我们描述了我们的经验教训,包括最大更新参数化(μP)如何进一步改善大型模型扩展,在规模上提高精度和超参数预测可预测性;我们发布了我们的预训练模型和代码,使本文成为首个将计算最优模型缩放与基于固定数据集尺寸训练的模型进行比较的开放和可重复使用的工作。