Jul, 2024

测试任务训练对评估和发现的干扰

TL;DR通过对测试任务的训练,我们研究了大型语言模型评估中的一个基本问题。我们证明在测试任务上训练会混淆相对模型评估和对新出现能力的声明,并提出了一种有效的方法来调整对测试任务的训练。我们发现,一旦调整了测试任务的训练,新出现行为的实例基本消失。这也适用于那些无法用评估指标选择来解释的新出现行为实例。我们的工作为大型语言模型的评估提供了新的观点,对基准测试和新出现能力的研究具有广泛的影响。