Dec, 2023

超越 Chinchilla-Optimal:考虑推理在语言模型扩展规律中的影响

TL;DR基于大型语言模型(LLM)的扩展规律是根据参数数量和训练数据的增加估计模型质量的经验公式。然而,这些公式,包括流行的 DeepMind Chinchilla 扩展规律,忽略了推理成本。我们修改了 Chinchilla 扩展规律,以计算训练和部署具有特定质量和推理需求的模型的最佳 LLM 参数数量和预训练数据大小。我们从计算预算和真实成本的角度进行分析,发现预计具有相当大的推理需求(约 10 亿个请求)的 LLM 研究人员应该训练比 Chinchilla-optimal 更小且更长的模型。