超越 Chinchilla-Optimal：考虑推理在语言模型扩展规律中的影响

Dec, 2023

超越 Chinchilla-Optimal：考虑推理在语言模型扩展规律中的影响

Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

Nikhil Sardana, Jonathan Frankle

TL;DR基于大型语言模型（LLM）的扩展规律是根据参数数量和训练数据的增加估计模型质量的经验公式。然而，这些公式，包括流行的 DeepMind Chinchilla 扩展规律，忽略了推理成本。我们修改了 Chinchilla 扩展规律，以计算训练和部署具有特定质量和推理需求的模型的最佳 LLM 参数数量和预训练数据大小。我们从计算预算和真实成本的角度进行分析，发现预计具有相当大的推理需求（约 10 亿个请求）的 LLM 研究人员应该训练比 Chinchilla-optimal 更小且更长的模型。

Abstract

large language model (LLM) scaling laws are empirical formulas that estimate changes in model quality as a result of increasing

large language model scaling laws model quality parameter count inference

发现论文，激发创造

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

训练最优的大型语言模型

本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量，并发现对于计算优化的训练，模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla，该模型在大范围的下游评估任务中均匀且显著地优于 Gopher，GPT-3，Jurassic-1 和 Megatron-Turing NLG。

Mar, 2022

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中 pre-training 效果的影响，发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果，并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时，研究了 downscaling effects，并且观察到 FLOPs 小于 $2.2×10^{15}$ 时，MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

尺寸越大越好吗？通过预算重新分配改进的 LLM 代码生成

在相同预算下，研究发现使用较小的语言模型可以获得持续改进，但在无法进行单元测试的情况下，从较小模型中选择候选者的排名方法的性能不如较大模型的单一输出。

Mar, 2024

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022