测试任务训练对评估和发现的干扰

Jul, 2024

测试任务训练对评估和发现的干扰

Training on the Test Task Confounds Evaluation and Emergence

Ricardo Dominguez-Olmedo, Florian E. Dorner, Moritz Hardt

TL;DR通过对测试任务的训练，我们研究了大型语言模型评估中的一个基本问题。我们证明在测试任务上训练会混淆相对模型评估和对新出现能力的声明，并提出了一种有效的方法来调整对测试任务的训练。我们发现，一旦调整了测试任务的训练，新出现行为的实例基本消失。这也适用于那些无法用评估指标选择来解释的新出现行为实例。我们的工作为大型语言模型的评估提供了新的观点，对基准测试和新出现能力的研究具有广泛的影响。

Abstract

We study a fundamental problem in the evaluation of large language models that we call training on the test task. Unlike wrongful practice

发现论文，激发创造

超越模仿游戏：量化和推断语言模型的能力

通过引入Beyond the Imitation Game基准测试（BIG-bench），我们评估了多种大小的语言模型在204个跨不同领域的任务上的表现，发现规模越大，其表现和校准也越好，但与人类专家相比还是很差，同时也发现在歧义上下文中情境偏见随规模增加而增加，但通过提示可以改善。

Jun, 2022

大型语言模型的新兴能力

探讨了语言模型的可扩展性问题，发现通过扩展语言模型的规模，可以实现一些新的能力和提升性能。

Jun, 2022

大型语言模型的新兴能力是否是海市蜃楼？

针对大型语言模型的研究表明，一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果，而非模型行为的本质变化，我们在使用简单的数学模型进行确认后得到支持证据。

Apr, 2023

预训练过程中的逆比例缩放现象

研究对语言建模任务进行训练过程中，随着模型参数规模的增加，Pythia模型在两项特定任务上的表现会下降，尽管这些模型总体呈现正的标度。这突显了测试模型在所有相关基准上的性能的重要性，即使它们的整体表现有所提升。

May, 2023

推理还是背诵？通过反事实任务探索语言模型的能力和限制

该研究旨在研究当前语言模型的抽象推理能力，提出一种基于“反事实”任务变体的评估框架，在一系列11项任务中观察到对反事实变体的表现，但表明当前语言模型的表现往往会严重且一致地降级，提示需要更加仔细地解释语言模型的表现。

Jul, 2023

生成模型作为复杂系统科学：如何理解大型语言模型的行为？

从预训练模型中提取出期望的行为，同时避免非期望的行为，重新定义了NLP并改变了我们与计算机的交互方式。尽管有越来越多的基准测试来衡量任务性能，但我们缺乏关于语言模型表现的解释，这些解释使它们首次完成这些任务成为可能。我们呼吁进行系统性的努力，将语言模型行为分解为解释跨任务性能的类别，以指导机制性解释，并帮助未来的分析研究。

Jul, 2023

大型语言模型中的突现能力是否只是针对上下文的学习？

通过一系列超过1000次实验，我们对包含60百万到1750亿参数范围内的18个模型进行了严格测试，在包括22个任务在内的全面任务集上提供了有力证据，表明新兴能力主要可以归因于上下文学习，并没有发现推理能力的出现，从而为我们对于观察到的能力背后的机制提供了宝贵的洞见，并缓解了对于它们使用的安全问题的担忧。

Sep, 2023

解锁可预测的增长能力

通过大规模采样在解码阶段引入 PassUntil 评估策略，本研究量化了任务性能的扩展规律并发现了突现能力的具体证据，从而推翻了有关突现能力产生的常见“多步推理假设”，提出了一种符合观察到的扩展曲线的新假设。

Oct, 2023

从损失的角度理解语言模型的新能力

通过预训练损失来重新定义新能力，发现较低预训练损失的模型呈现出的性能趋势不可被简单地推断，表现出较高的新能力。

Mar, 2024

观察性缩放律与语言模型性能的可预测性

通过观测法利用多个已有模型家族构建单一的扩展律，展示了复杂的扩展现象是可预测的，模型性能可以从简单的非代理基准准确预测，预测了后期训练干预的影响。

May, 2024