为什么使用规模预测前沿的人工智能模型的下游能力如此困难？

Jun, 2024

为什么使用规模预测前沿的人工智能模型的下游能力如此困难？

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan...

TL;DR通过使用五个模型家族和十二个多项选择基准测试，我们展示了通过负对数似然性能计算的一系列转换逐渐降低了性能和规模之间的统计关系，同时揭示了导致这种降级的机制：下游度量要求将正确的选择与少量特定的错误选择进行比较，这意味着准确预测下游能力不仅要预测概率质量如何在正确选择上随规模集中，还要预测概率质量如何在特定错误选择上随规模波动。

Abstract

predictable behavior from scaling advanced ai systems is an extremely desirable property. Although a well-established literature exists on how pretraining performance scales, the literature on how particular down

predictable behavior scaling advanced ai systems downstream capabilities multiple-choice benchmarks scaling laws

发现论文，激发创造

巧妙之道：利用下游分析能力导航大型语言模型预训练

通过详细分析不同预训练模型中的不同能力表现，我们确认了特定下游指标在不同大小的模型中展示相似的训练动态，多达 670 亿参数。此外，我们还复现了 Amber 和 OpenLLaMA，并发布了它们的中间检查点，以为研究界提供宝贵的资源，促进对开源研究人员的 LLM 预训练进行验证和探索。此外，我们提供了不同模型和能力的性能比较以及不同训练阶段的关键指标指导的实证总结。基于这些发现，我们提供了一种更用户友好的评估优化状态的策略，为建立稳定的预训练流程提供指导。

Apr, 2024

大规模预训练的极限探索

通过调整数据规模、模型大小和训练时间，提高预训练的准确性可以有利于大多数下游任务的表现，但是当上游准确度提高时，下游任务的表现会饱和，并且与上游和下游任务的性能呈非线性关系，因此需要对下游性能建立一个模型以反映这种饱和现象。

Oct, 2021

大型语言模型下游任务性能的缩放规律

大型语言模型（LLMs）的缩放规律在设计中提供了重要的指导。本文研究了迁移学习中的缩放行为，探讨了预训练数据的选择和大小对下游性能的影响，并提供了选择适当的预训练数据的实用见解。

Feb, 2024

高效扩展：基于预训练和微调的 Transformer 技术洞见

本文提出了来自于预训练和微调 Transformer 的缩放见解，并展示了改进的缩放协议，使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量，同时参数数量减少了 50％，训练速度比广泛采用的 T5-base 模型快了 40％。

Sep, 2021

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

基于预训练模型学习样本难度以实现可靠预测

本文提出了一个方法，即基于样本难度感知熵正则化，利用经过大规模训练的预先训练模型指导下游模型训练，并同时提高了准确性和不确定性校准的可靠预测，克服了现代神经网络的困难，这是一个未被充分探索的领域。

Apr, 2023

走向科学机器学习的基础模型：特征缩放与转移行为表征

研究表明，预训练模型可以应用于科学机器学习任务中的迁移学习，可在细调适当的预训练模型下，以比从头开始训练少得多的下游示例实现期望的准确度水平。模型的规模越大，用 fine-tuning 方法会获得更好的性能提升，这为 SciML 问题的建模奠定了基础。

Jun, 2023

语言模型基准测试的可预测性如何？

通过在 11 种最近的模型架构中研究大规模语言模型在五个数量级的计算规模上的表现，我们发现平均基准性能相当可预测，尽管在特定任务中的性能预测具有挑战性，因此计算规模提供了预测人工智能在不同基准测试中能力的有希望的基础。

Jan, 2024

语言模型的降低规模成本：在上下文学习之前事实记忆退化

参数扩展对大型语言模型核心能力的影响是如何的？我们研究了两种常见的扩展技术 —— 权重剪枝和直接训练更小或更大的模型，并分析了它们对语言模型的两个核心能力的影响：(a) 回忆在预训练阶段出现过的事实；(b) 处理推理过程中的上下文信息。通过设计一系列任务，我们发现了这两个能力在不同扩展方式下的差异。将模型大小减少 30% 以上（通过任何扩展方法）会显著降低回忆预训练中出现的事实的能力，但是将模型大小减少 60-70% 则大致保留了模型在处理上下文信息时的各种方式，从从长篇文本中检索答案到通过上下文示例学习参数化函数。密集扩展和权重剪枝都表现出这种行为，这表明模型大小的扩展对于事实回忆和上下文学习具有本质上不同的影响。

Oct, 2023

对比学习中的不确定性：下游性能可预测性研究

本文研究了基于对比学习的深度学习模型的嵌入向量的不确定性评估问题，并提出了一种方法，直接在嵌入空间中估计数据分布并考虑其局部一致性，结果表明该方法可以有效预测嵌入向量的下游性能。

Jul, 2022