大型语言模型的高级推理基准

Jul, 2023

ARB: Advanced Reasoning Benchmark for Large Language Models

Tomohiro Sawada, Daniel Paleka, Alexander Havrilla, Pranav Tadepalli, Paula Vidas...

TL;DR大型语言模型在各种定量推理和知识基准测试中表现出色。然而，尽管尚未达到这些领域的专家水平，但许多这些基准测试由于 LLMs 的得分越来越高而失去了效用。我们引入了 ARB，这是一个由多个领域中的高级推理问题组成的新型基准测试。ARB 比以前的基准测试更具挑战性，其中包含数学、物理、生物、化学和法律领域的问题。作为 ARB 的一个子集，我们引入了一组具有挑战性的数学和物理问题，需要高级符号推理和领域知识。我们评估了最近的模型，如 GPT-4 和 Claude 在 ARB 上的表现，并证明现有模型在较高难度任务上的得分远低于 50％。为了改进自动和辅助评估能力，我们引入了一种基于评分表的评估方法，允许 GPT-4 评分自己的中间推理步骤。此外，我们对 ARB 的符号子集进行了人工评估，发现注释者和 GPT-4 评分之间存在有希望的一致性。

Abstract

large language models (LLMs) have demonstrated remarkable performance on various quantitative reasoning and knowledge benchmarks. However, many of these benchmarks are losing utility as LLMs get increasingly high scores, despite not yet reaching expert performance in these domains. We

large language models benchmark advanced reasoning problems symbolic reasoning evaluation

发现论文，激发创造

LLM 们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

MR-BEN: 大型语言模型的综合元推理基准

大型语言模型在问题解决和决策方面表现出越来越强的能力，但评估其推理能力变得越来越具挑战性。为了解决这个问题，我们提出了一个基于过程的 MR-BEN 基准，要求语言模型在自动生成的推理步骤中找出并分析潜在的错误，通过这个基准，我们确定了当前语言模型的一些有趣限制和弱点。

Jun, 2024

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

我们引入了一种新颖的评估范式来评估大型语言模型，这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷，传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估，能够有效区分模型之间的认知能力。例如，在我们的基准测试中，GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试（如 GSM8K）未能发现的语言模型的潜在认知缺陷，这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型，揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变，而且对于关于人工通用智能（AGI）的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用，我们旨在促进对 LLM 真正认知能力的更准确评估。

Dec, 2023

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

LLM 是否具备基于数据的统计和因果推理能力？通过数据进行高级量化推理的基准测试

定量推理是分析数据的关键技能，本研究引入 QRData 基准，旨在评估大型语言模型对现实世界数据的统计和因果推理能力。研究在一组精心构建的数据集中评估了不同模型的定量推理能力，并发现模型在数据分析和因果推理方面存在困难，同时难以同时使用因果知识和提供的数据。

Feb, 2024

LLMs 与抽象推理数据集：成功、失败及基于对象表示的重要性

本文探讨了大型语言模型在抽象推理问题中的解决能力，提出了基于物体表示的解决方案，解决了 ARC 数据集中的 13 个问题，并在 1D-ARC 数据集上取得了接近完美的成绩。

May, 2023

LegalBench：一个协作构建的基准测试，用于评估大型语言模型在法律推理方面的表现

介绍了 LegalBench，对 20 个开源和商业的大型语言模型进行了实证评估，并展示了 LegalBench 所提供的研究探索类型。

Aug, 2023

RUPBench：基于干扰的推理鲁棒性评估大型语言模型的基准测试

通过对大型语言模型（LLMs）进行系统的鲁棒性评估，本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。

Jun, 2024

OlympiadBench：一个挑战性的基准测试，旨在推动具备奥林匹克级双语多模式科学问题的通用人工智能

我们提出了 OlympiadBench，这是一个奥林匹克级双语多模态科学基准，包含来自奥林匹克级数学和物理竞赛以及中国大学入学考试的 8,952 个问题，每个问题都有专家级的逐步推理注释。我们在 OlympiadBench 上评估了一流的模型，并实施了全面的评估方法，从而准确评估模型的响应能力。最佳模型 GPT-4V 在 OlympiadBench 上的平均得分为 17.23％，物理得分仅为 11.28％，突出了基准的严谨性和物理推理的复杂性。我们的分析指出了 GPT-4V 存在的幻觉、知识遗漏和逻辑谬误等普遍问题。希望我们挑战性的基准可以成为未来 AGI 研究努力的宝贵资源。

Feb, 2024