Jul, 2023

大型语言模型的高级推理基准

TL;DR大型语言模型在各种定量推理和知识基准测试中表现出色。然而,尽管尚未达到这些领域的专家水平,但许多这些基准测试由于 LLMs 的得分越来越高而失去了效用。我们引入了 ARB,这是一个由多个领域中的高级推理问题组成的新型基准测试。ARB 比以前的基准测试更具挑战性,其中包含数学、物理、生物、化学和法律领域的问题。作为 ARB 的一个子集,我们引入了一组具有挑战性的数学和物理问题,需要高级符号推理和领域知识。我们评估了最近的模型,如 GPT-4 和 Claude 在 ARB 上的表现,并证明现有模型在较高难度任务上的得分远低于 50%。为了改进自动和辅助评估能力,我们引入了一种基于评分表的评估方法,允许 GPT-4 评分自己的中间推理步骤。此外,我们对 ARB 的符号子集进行了人工评估,发现注释者和 GPT-4 评分之间存在有希望的一致性。