MR-BEN: 大型语言模型的综合元推理基准

Jun, 2024

MR-BEN: 大型语言模型的综合元推理基准

MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models

Zhongshen Zeng, Yinhong Liu, Yingjia Wan, Jingyao Li, Pengguang Chen...

TL;DR大型语言模型在问题解决和决策方面表现出越来越强的能力，但评估其推理能力变得越来越具挑战性。为了解决这个问题，我们提出了一个基于过程的 MR-BEN 基准，要求语言模型在自动生成的推理步骤中找出并分析潜在的错误，通过这个基准，我们确定了当前语言模型的一些有趣限制和弱点。

Abstract

large language models (LLMs) have shown increasing capability in problem-solving and decision-making, largely based on the step-by-step chain-of-thought reasoning processes. However, it has been increasingly challenging to evaluate the →

large language models reasoning capability evaluation process-based benchmark meta reasoning

发现论文，激发创造

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

我们引入了一种新颖的评估范式来评估大型语言模型，这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷，传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估，能够有效区分模型之间的认知能力。例如，在我们的基准测试中，GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试（如 GSM8K）未能发现的语言模型的潜在认知缺陷，这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型，揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变，而且对于关于人工通用智能（AGI）的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用，我们旨在促进对 LLM 真正认知能力的更准确评估。

Dec, 2023

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023

大型语言模型的元推理

Meta-Reasoning Prompting（MRP）是一种受人类元推理启发的用于大型语言模型（LLMs）的新型高效系统提示方法，通过动态选择和应用不同的推理方法来优化性能和计算效率，实现了在不同任务中达到或接近最先进性能的结果。

Jun, 2024

MARS：用多任务评估数据集评估语言模型的形而上学推理能力

为了使大型语言模型（LLMs）能够成为具有可推广的推理能力的有意识的代理人，关键是它们具备理解由环境因素或其他代理人的行动触发的分布情况变化（转换）的推理能力。我们提出了一种新颖的推理形式，称为 MetAphysical ReaSoning，它将分布变化的推理视为一个三步骤的判别过程，并引入了首个基准测试 MARS 来评估 LLMs 在推理行动变化引起的可能性、由变化行动引起的状态以及由行动变化驱动的情境转换方面的能力。深入评估显示，即使对于最先进的 LLMs 和经过微调的 LMs 而言，该过程中的所有三个任务都带来了重大挑战。进一步的分析揭示了 LLMs 表现不佳的潜在原因，并证明了在大规模概念分类法中预训练 LLMs 可以潜在地增强其形而上学推理能力。我们的数据和模型可以在此 https URL 上公开访问。

Jun, 2024

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024

大型语言模型的高级推理基准

大型语言模型在各种定量推理和知识基准测试中表现出色。然而，尽管尚未达到这些领域的专家水平，但许多这些基准测试由于 LLMs 的得分越来越高而失去了效用。我们引入了 ARB，这是一个由多个领域中的高级推理问题组成的新型基准测试。ARB 比以前的基准测试更具挑战性，其中包含数学、物理、生物、化学和法律领域的问题。作为 ARB 的一个子集，我们引入了一组具有挑战性的数学和物理问题，需要高级符号推理和领域知识。我们评估了最近的模型，如 GPT-4 和 Claude 在 ARB 上的表现，并证明现有模型在较高难度任务上的得分远低于 50％。为了改进自动和辅助评估能力，我们引入了一种基于评分表的评估方法，允许 GPT-4 评分自己的中间推理步骤。此外，我们对 ARB 的符号子集进行了人工评估，发现注释者和 GPT-4 评分之间存在有希望的一致性。

Jul, 2023

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

FinBen: 大型语言模型的全面金融基准

通过引入 FinBen 综合开放式评估基准，本文对 15 个具有代表性的 LLMs 进行评估，揭示了它们在金融领域的优势和局限性，找出了需要有针对性增强的方面。

Feb, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

LLM 们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023