用于稳健评估推理性能和推理差距的功能基准

Feb, 2024

用于稳健评估推理性能和推理差距的功能基准

Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap

Saurabh Srivastava, Annarose M B, Anto P V, Shashank Menon, Ajay Sukumar...

TL;DR我们提出了一个用于鲁棒评估语言模型推理能力的框架，使用功能变体基准。在静态问题版本与功能变体快照之间，解决推理测试的模型在性能上不应有差异。我们将 MATH 基准的相关片段重写为其功能变体 MATH ()，其他基准的函数化会随之进行。通过对 MATH () 的快照评估当前最先进的模型，我们发现存在推理差距 - 静态和功能准确性之间的百分比差。我们发现，在静态基准上表现良好的最先进的闭合和开放权重模型中，推理差距从 58.35% 到 80.31% 不等，激励产生 “gap 0” 模型建设的开放问题。评估代码、新的评估数据集以及三个 MATH () 快照可以在此 https URL 处公开获取。

Abstract

We propose a framework for robust evaluation of reasoning capabilities of language models, using →

framework robust evaluation reasoning capabilities functional variants reasoning gap

发现论文，激发创造

系统评估推理捷径的基准套件

强大的神经分类器的出现增加了对既需要学习又需要推理的问题的兴趣，该研究论文介绍了一个包含任务评估、概念质量评估和推理快捷方式验证的综合基准套件，旨在系统地评估推理快捷方式对模型的影响。

Jun, 2024

BizBench：商业和金融的定量推理基准

评估金融推理能力的基准和挑战性问题 BizBench，通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估，并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。

Nov, 2023

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

我们引入了一种新颖的评估范式来评估大型语言模型，这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷，传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估，能够有效区分模型之间的认知能力。例如，在我们的基准测试中，GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试（如 GSM8K）未能发现的语言模型的潜在认知缺陷，这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型，揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变，而且对于关于人工通用智能（AGI）的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用，我们旨在促进对 LLM 真正认知能力的更准确评估。

Dec, 2023

IsarStep: 高层次数学推理的基准测试

本文提出了一种用于高级数学推理的数据集，研究了神经序列到序列模型的推理能力。实验结果表明，该任务具有挑战性，但神经模型能够捕捉到非平凡的数学推理，提出的分层 Transformer 的性能也好于基准 Transformer。

Jun, 2020

FERMAT：数字推理中的非精确度替代方案

文章介绍了 FERMAT（英语数值推理的多维视角评估集），它通过对数值理解、数学操作和训练依赖等关键数值推理方面进行评估，提供了关于已有模型在不同数值推理方面的优势和劣势的全面评估，并能够系统化自动生成任意大规模的训练或评估集。

May, 2023

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了 ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath 通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

用因果框架量化语言模型数学推理的鲁棒性

通过行为测试，研究语言模型在数学问题求解中的鲁棒性和灵敏度，并通过因果图描述直接干预输入空间对模型行为的影响。在双变量数学问题测试中，LLM、GPT-3-Instruct（175B）相对于其他 GPT 变体，在鲁棒性和灵敏度方面实现了显著提高。

Oct, 2022

MR-BEN: 大型语言模型的综合元推理基准

大型语言模型在问题解决和决策方面表现出越来越强的能力，但评估其推理能力变得越来越具挑战性。为了解决这个问题，我们提出了一个基于过程的 MR-BEN 基准，要求语言模型在自动生成的推理步骤中找出并分析潜在的错误，通过这个基准，我们确定了当前语言模型的一些有趣限制和弱点。

Jun, 2024

评估数学推理能力的准确性以外的因素

通过有效性和冗余性评估推理质量，我们提出了 ReasonEval 方法，该方法在数学任务中表现优异，并发现提高最终答案准确性并不一定能改善复杂数学问题推理步骤的整体质量。

Apr, 2024

NPHardEval: 复杂类别下大型语言模型推理能力的动态评估基准

本研究引入了一个名为 NPHardEval 的新基准，旨在评估大型语言模型（LLMs）的推理能力。通过比较 LLMs 在复杂类别上的表现，提供了对 LLMs 推理能力的客观且严格的观点。此基准通过 900 个算法问题的广泛谱系评估 LLMs 的推理能力，从 NP-Hard 复杂类别扩展到以下较低的复杂类别，并通过每月更新数据点来减轻 LLMs 过拟合的风险，促进更准确可靠的能力评估。

Dec, 2023