训练最优的大型语言模型

Mar, 2022

Training Compute-Optimal Large Language Models

Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai...

TL;DR本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量，并发现对于计算优化的训练，模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla，该模型在大范围的下游评估任务中均匀且显著地优于 Gopher，GPT-3，Jurassic-1 和 Megatron-Turing NLG。

Abstract

We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a cons

transformer language model compute-optimal training model size training tokens chinchilla

发现论文，激发创造

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

超越 Chinchilla-Optimal：考虑推理在语言模型扩展规律中的影响

基于大型语言模型（LLM）的扩展规律是根据参数数量和训练数据的增加估计模型质量的经验公式。然而，这些公式，包括流行的 DeepMind Chinchilla 扩展规律，忽略了推理成本。我们修改了 Chinchilla 扩展规律，以计算训练和部署具有特定质量和推理需求的模型的最佳 LLM 参数数量和预训练数据大小。我们从计算预算和真实成本的角度进行分析，发现预计具有相当大的推理需求（约 10 亿个请求）的 LLM 研究人员应该训练比 Chinchilla-optimal 更小且更长的模型。

Dec, 2023

语言模型的扩展：方法、分析与训练经验

本文通过对转换器为基础的语言模型在不同规模下的性能分析，证明规模越大，其在阅读理解、事实检查和鉴别有害语言等方面的性能提高最大，但在逻辑推理和数学推理等方面的收益较少。此外，本文还介绍了训练数据集和模型行为的综合分析，探讨了语言模型在 AI 安全和减轻下游危害中的应用。

Dec, 2021

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

数据受限的语言模型的扩展

本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果，并提出了可衡量计算优化性的缩放规律，并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。

May, 2023

针对大型语言模型的前沿分布式训练优化

通过实验结果和超参数调整，我们提出了一套用于大型语言模型的分布式训练策略。

Dec, 2023

Cerebras-GPT：基于 Cerebras 晶片集群训练的优化开放式云算模型

通过高效的预训练和扩展、开放数据集和工具来改善大语言模型的最近研究进展；我们将这些进展结合起来，推出了 Cerebras-GPT，这是一个从 111M 扩展到 13B 参数的开放计算最优语言模型家族；我们在 Eleuther Pile 数据集上训练 Cerebras-GPT 模型，并使用 DeepMind Chinchilla 规则进行高效预训练，比较 Cerebras-GPT 和其他公开可用模型，以展示 Cerebras-GPT 上所有模型均在预训练和下游目标上具有最先进的训练效率。我们描述了我们的经验教训，包括最大更新参数化（μP）如何进一步改善大型模型扩展，在规模上提高精度和超参数预测可预测性；我们发布了我们的预训练模型和代码，使本文成为首个将计算最优模型缩放与基于固定数据集尺寸训练的模型进行比较的开放和可重复使用的工作。

Apr, 2023

重新思考微型语言模型的优化和架构

通过实证研究基于一个亿参数的小型语言模型，在神经网络结构、参数初始化和优化策略三个方面分析了每个组件的影响，找到了多个设计公式，如令牌压缩、结构微调、参数继承和多轮训练等，证实了它们对小型语言模型的有效性，进一步优化和改进模型的效果明显，验证了其优越性能。

Feb, 2024

拥有 100 万 GPU 小时，应该如何选择训练语言模型？

本研究旨在构建一个大型语言模型 BLOOM，对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究，并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。

Oct, 2022

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020