语言模型基准测试的可预测性如何？

Jan, 2024

语言模型基准测试的可预测性如何？

How predictable is language model benchmark performance?

David Owen

TL;DR通过在 11 种最近的模型架构中研究大规模语言模型在五个数量级的计算规模上的表现，我们发现平均基准性能相当可预测，尽管在特定任务中的性能预测具有挑战性，因此计算规模提供了预测人工智能在不同基准测试中能力的有希望的基础。

Abstract

We investigate large language model performance across five orders of magnitude of compute scaling in eleven recent model architectures. We show that average →

large language model compute scaling benchmark performance big-bench ai capabilities

发现论文，激发创造

大型语言模型能力的可预测性研究 —— 以 BIG-bench 为例

研究了大型语言模型预测能力的可预测性问题并在 BIG-bench 实验记录上进行了实证研究，发现大型语言模型的性能可以以 5% 以下的 RMSE 进行准确预测，并提出了寻找一个信息性子集用于评估新模型家族的问题，整合了 BIG-bench Hard 的信息，并将规模缩小了三倍。

May, 2023

超越模仿游戏：量化和推断语言模型的能力

通过引入 Beyond the Imitation Game 基准测试（BIG-bench），我们评估了多种大小的语言模型在 204 个跨不同领域的任务上的表现，发现规模越大，其表现和校准也越好，但与人类专家相比还是很差，同时也发现在歧义上下文中情境偏见随规模增加而增加，但通过提示可以改善。

Jun, 2022

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

语言模型的算法进展

自 2012 年至 2023 年，使用 Wikitext 和 Penn Treebank 的 200 多个语言模型评估数据集，我们发现为达到一定性能门槛所需的计算量每 8 个月减少一半，置信区间为 5 到 14 个月，远快于 Moore 定律关于硬件提升的速度。我们估计了增强的缩放定律，可以量化算法进展并确定缩放模型与训练算法创新的相对贡献。尽管算法进展迅速且新架构（如变压器）的发展，我们的分析显示在这段时间内计算量对整体性能改进的贡献更大。尽管受噪声基准数据限制，我们的分析量化了语言建模的快速进展，并阐明了计算量与算法的相对贡献。

Mar, 2024

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

深度学习的扩展是可预测的，实证的

本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等 4 个机器学习领域的数据，研究训练集大小、模型规模与推广误差之间的关系，结果表明推广误差遵循幂定律缩放，且模型改进只改变误差而不影响幂指数。此外，模型大小随数据规模的增大缩小，这些研究对于深度学习的研究、实践和系统设计具有重要意义。

Dec, 2017

使用桌游进行尺度律研究

本文通过使用 AlphaZero 和 Hex 的一系列实验，展示了基于模型大小和问题规模的机器学习实验结果可以被可靠地外推，并且同时可转化为测试和训练时间的计算能力的权衡来维持表现。

Apr, 2021

基于特征的性能预测模型的泛化能力研究：基准测试的统计分析

该研究通过对各种基准套件的算法性能预测模型的泛化能力进行考察，比较问题集合的统计相似性和基于探索性景观分析特征的性能预测模型的准确性，我们发现这两个指标之间存在着正相关关系。具体来说，当训练和测试套件之间的高维特征值分布缺乏统计显著性时，模型往往能够很好地进行泛化，即测试误差与训练误差处于同一范围内。两个实验证实了这些发现：一个涉及标准基准套件 BBOB 和 CEC 集合，另一个使用了五个由 BBOB 问题实例的仿射组合构成的集合。

May, 2024

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024