系统评估推理捷径的基准套件

Jun, 2024

A Benchmark Suite for Systematically Evaluating Reasoning Shortcuts

Samuele Bortolotti, Emanuele Marconato, Tommaso Carraro, Paolo Morettin, Emile van Krieken...

TL;DR强大的神经分类器的出现增加了对既需要学习又需要推理的问题的兴趣，该研究论文介绍了一个包含任务评估、概念质量评估和推理快捷方式验证的综合基准套件，旨在系统地评估推理快捷方式对模型的影响。

Abstract

The advent of powerful neural classifiers has increased interest in problems that require both learning and reasoning. These problems are critical for understanding important properties of models, such as trustwo

neural classifiers learning and reasoning reasoning shortcuts concept quality neuro-symbolic models

发现论文，激发创造

BEARS 使神经符号模型意识到其推理捷径

通过确保神经符号模型意识到其所学概念的语义歧义，从而使用户能够识别并不信任低质量的概念，从而不降低预测准确性，我们提出了一种名为 BEARS（BE Aware of Reasoning Shortcuts）的合奏技术，该技术校准了模型在概念层面的置信度，提高了对 RS 的感知能力，也有助于获取有信息量的密集注释以用于缓解目的。

Feb, 2024

CLRS 算法推理基准

学习算法的表征是机器学习的一个新兴领域，该研究旨在通过神经网络与经典算法的概念相结合。为了统一评估标准并推进统一的评估方法，我们提出了 CLRS 算法推理基准。该基准涵盖从算法导论教材中提取出来的经典算法，跨越了各种算法推理过程，包括排序、搜索、动态规划、图形算法、字符串算法和几何算法。我们进行了大量实验来展示几个流行的算法推理基线在这些任务上的表现，并进一步强调了几个开放挑战的链接。

May, 2022

IsarStep: 高层次数学推理的基准测试

本文提出了一种用于高级数学推理的数据集，研究了神经序列到序列模型的推理能力。实验结果表明，该任务具有挑战性，但神经模型能够捕捉到非平凡的数学推理，提出的分层 Transformer 的性能也好于基准 Transformer。

Jun, 2020

超越显而易见：基于生活景象的语言模型推理能力评估 (LSR-Benchmark)

本文介绍了 Life Scapes Reasoning Benchmark (LSR-Benchmark) 数据集，它是一个针对真实情境推理的新颖数据集，旨在弥补人工神经网络在日常背景下推理能力的差距，并测试了利用 gpt3.5-turbo 和 instruction fine-tuned llama 模型的推理性能。实验结果表明人类在理解日常生活方面仍然优于这些模型，这表明机器学习模型在理解日常人类生活方面仍然面临着挑战。

Jul, 2023

BizBench：商业和金融的定量推理基准

评估金融推理能力的基准和挑战性问题 BizBench，通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估，并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。

Nov, 2023

RAR-b: 推理作为检索的基准

通过将推理任务转换为检索任务，我们发现，即使没有针对推理级别的语言理解进行专门训练，目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任，特别是在推理密集型任务中。然而，最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力，突显了嵌入模型实现推理级别语言理解的路径。通过微调重新排序模型将推理能力注入其中似乎比对双编码器进行类似操作更容易，我们能够在所有任务中通过微调重新排序模型实现最先进的性能。我们发布由整体任务和设置组成的推理作为检索基准（RAR-b），用于评估检索模型中存储的推理能力。

Apr, 2024

DR.BENCH：临床自然语言处理的诊断推理基准

本研究介绍了一种新的基准测试套件，称为 DR.BENCH，旨在开发和评估具有临床诊断推理能力的 cNLP 模型，这是第一个被设计为自然语言生成框架以评估预训练语言模型的临床任务套件。

Sep, 2022

用于稳健评估推理性能和推理差距的功能基准

我们提出了一个用于鲁棒评估语言模型推理能力的框架，使用功能变体基准。在静态问题版本与功能变体快照之间，解决推理测试的模型在性能上不应有差异。我们将 MATH 基准的相关片段重写为其功能变体 MATH ()，其他基准的函数化会随之进行。通过对 MATH () 的快照评估当前最先进的模型，我们发现存在推理差距 - 静态和功能准确性之间的百分比差。我们发现，在静态基准上表现良好的最先进的闭合和开放权重模型中，推理差距从 58.35% 到 80.31% 不等，激励产生 “gap 0” 模型建设的开放问题。评估代码、新的评估数据集以及三个 MATH () 快照可以在此 https URL 处公开获取。

Feb, 2024

物理推理 AI 的基准测试

物理推理是开发通用人工智能系统的关键因素，本论文旨在提供现有基准的综述及其解决方法，并提出了衡量人工智能系统物理推理能力的统一观点。我们选择了设计用于测试物理推理任务中算法性能的基准。虽然每个选定的基准都提出了独特的挑战，但它们的集合为具有各种物理推理概念可测量技能水平的通用 AI 代理提供了全面的实践场所。因此，这些基准集合相较于旨在模拟现实世界并交织其复杂性和许多概念的综合基准具有优势。我们将所呈现的一组物理推理基准分为子类别，以首先在这些组上对更窄的通用 AI 代理进行测试。

Dec, 2023

语言模型中的空间推理评估重新构架：定性推理的现实世界模拟基准

我们提出了一个新的基准评估语言模型中的定性空间推理，该基准建立在逼真的三维仿真数据上，提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性，发现它们在多跳空间推理和解释混合视角描述方面存在困难，并指出了未来改进的方向。

May, 2024