预训练过程中的逆比例缩放现象

May, 2023

Emergent inabilities? Inverse scaling over the course of pretraining

James A. Michaelov, Benjamin K. Bergen

TL;DR研究对语言建模任务进行训练过程中，随着模型参数规模的增加，Pythia 模型在两项特定任务上的表现会下降，尽管这些模型总体呈现正的标度。这突显了测试模型在所有相关基准上的性能的重要性，即使它们的整体表现有所提升。

Abstract

Does inverse scaling only occur as a function of model parameter size, or can it also occur over the course of training? We carry out an exploratory study investigating whether, over the course of →

inverse scaling language modeling pythia models model performance training

发现论文，激发创造

反比例缩放可能呈 U 形

本文研究了逆比例缩放任务，发现多数任务的表现呈现 “U 型缩放”，即随着模型大小的增加，性能先下降后上升，只有四个任务呈现逆比例缩放。研究表明，对于大型模型而言，先前观察到的精度下降趋势可能无法继续保持，并进一步支持大型模型会释放新的能力的主张。

Nov, 2022

反比缩放：大不一定好

通过运行一个公共比赛，我们在 11 个数据集上提供了逆比例缩放的实证证据，并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律，但我们的结果表明，模型规模增加本身对某些任务可能不会产生进展，因此对于训练语言模型的数据和目标需要更加谨慎的思考。

Jun, 2023

简化规模生成式语言模型中的新能力

通过简化预训练数据，研究表明在训练数据规模较小的模型上，也能出现零样本学习能力，并且模型规模大小与计算资源、数据集大小之间呈现幂律关系。

Apr, 2024

语言模型的降低规模成本：在上下文学习之前事实记忆退化

参数扩展对大型语言模型核心能力的影响是如何的？我们研究了两种常见的扩展技术 —— 权重剪枝和直接训练更小或更大的模型，并分析了它们对语言模型的两个核心能力的影响：(a) 回忆在预训练阶段出现过的事实；(b) 处理推理过程中的上下文信息。通过设计一系列任务，我们发现了这两个能力在不同扩展方式下的差异。将模型大小减少 30% 以上（通过任何扩展方法）会显著降低回忆预训练中出现的事实的能力，但是将模型大小减少 60-70% 则大致保留了模型在处理上下文信息时的各种方式，从从长篇文本中检索答案到通过上下文示例学习参数化函数。密集扩展和权重剪枝都表现出这种行为，这表明模型大小的扩展对于事实回忆和上下文学习具有本质上不同的影响。

Oct, 2023

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

超越正向缩放：否定对语言模型缩放趋势的影响

该研究介绍了 NeQA 数据集，发现语言模型的表现随着模型大小、计算能力或数据的提升而呈现出正比例尺度增长的趋势。然而，在 NeQA 数据集中，语言模型在对于否定问题的解答上出现了相反的结果。该研究发现，这种现象的解答依赖于两个子任务：问题回答和否定理解。研究表明：问题回答任务呈线性比例尺度增长趋势，而否定理解任务呈 Sigmoid 函数形状的比例尺度增长趋势，并由这两个趋势的组成，得出了 NeQA 的最终缩放趋势。

May, 2023

解锁可预测的增长能力

通过大规模采样在解码阶段引入 PassUntil 评估策略，本研究量化了任务性能的扩展规律并发现了突现能力的具体证据，从而推翻了有关突现能力产生的常见 “多步推理假设”，提出了一种符合观察到的扩展曲线的新假设。

Oct, 2023

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中 pre-training 效果的影响，发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果，并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时，研究了 downscaling effects，并且观察到 FLOPs 小于 $2.2×10^{15}$ 时，MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023