反比缩放：大不一定好

Jun, 2023

Inverse Scaling: When Bigger Isn't Better

Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller...

TL;DR通过运行一个公共比赛，我们在 11 个数据集上提供了逆比例缩放的实证证据，并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律，但我们的结果表明，模型规模增加本身对某些任务可能不会产生进展，因此对于训练语言模型的数据和目标需要更加谨慎的思考。

Abstract

Work on scaling laws has found that large language models (LMs) show predictable improvements to overall loss with increased scale (model size, training →

scaling laws large language models inverse scaling training objective data

发现论文，激发创造

反比例缩放可能呈 U 形

本文研究了逆比例缩放任务，发现多数任务的表现呈现 “U 型缩放”，即随着模型大小的增加，性能先下降后上升，只有四个任务呈现逆比例缩放。研究表明，对于大型模型而言，先前观察到的精度下降趋势可能无法继续保持，并进一步支持大型模型会释放新的能力的主张。

Nov, 2022

预训练过程中的逆比例缩放现象

研究对语言建模任务进行训练过程中，随着模型参数规模的增加，Pythia 模型在两项特定任务上的表现会下降，尽管这些模型总体呈现正的标度。这突显了测试模型在所有相关基准上的性能的重要性，即使它们的整体表现有所提升。

May, 2023

大规模语言模型在提示注入攻击下的机器翻译伸缩行为

研究了大型语言模型在机器翻译任务上的指令注入攻击，发现在某些条件下，更大的模型可能更容易受到成功攻击的影响，这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。

Mar, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

大型语言模型的时间尺度定律

最近，大型语言模型广泛应用于各种任务，对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律，并研究了语言模型在时间维度上的损失。研究发现，尽管存在损失不平衡，语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象，并提供了对预训练语言模型更深入的理解。

Apr, 2024

缩放定律无法按比例缩放

随着数据集规模的增大，对大型人工智能模型进行训练的数据中包含的不同社群数量可能增加，而每个社群可能持有不同的价值观，这对于刻度律模型的性能评估可能存在风险。

Jul, 2023

语言模型的降低规模成本：在上下文学习之前事实记忆退化

参数扩展对大型语言模型核心能力的影响是如何的？我们研究了两种常见的扩展技术 —— 权重剪枝和直接训练更小或更大的模型，并分析了它们对语言模型的两个核心能力的影响：(a) 回忆在预训练阶段出现过的事实；(b) 处理推理过程中的上下文信息。通过设计一系列任务，我们发现了这两个能力在不同扩展方式下的差异。将模型大小减少 30% 以上（通过任何扩展方法）会显著降低回忆预训练中出现的事实的能力，但是将模型大小减少 60-70% 则大致保留了模型在处理上下文信息时的各种方式，从从长篇文本中检索答案到通过上下文示例学习参数化函数。密集扩展和权重剪枝都表现出这种行为，这表明模型大小的扩展对于事实回忆和上下文学习具有本质上不同的影响。

Oct, 2023

多语言神经机器翻译的规模定律

本研究提供了一个大规模的实证研究，研究了多语言神经机器翻译模型的缩放特性，包括模型规模对模型性能的影响，训练混合物组成对缩放行为的作用，以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式，我们计算了每个语言对分配的有效参数数量，并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终，我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能，显著减少了大型多语言模型中语言平衡所需的工作量。

Feb, 2023

大型时间序列模型的尺度定律

基于大规模语言模型的缩放定律已经在如何训练规模更大的模型以获得可预测的性能提升上提供了有用的指导。该研究表明，基于解码器的时间序列变换模型也展示了与语言模型类似的缩放行为，对于广泛范围内的架构细节（纵横比和头数）几乎没有影响。我们汇集了大量的异构时间序列数据进行训练，并首次建立了参数数量、数据集大小和训练计算量与其之间的幂律缩放关系，涵盖了五个数量级。

May, 2024