系统评估推理捷径的基准套件
通过确保神经符号模型意识到其所学概念的语义歧义,从而使用户能够识别并不信任低质量的概念,从而不降低预测准确性,我们提出了一种名为 BEARS(BE Aware of Reasoning Shortcuts)的合奏技术,该技术校准了模型在概念层面的置信度,提高了对 RS 的感知能力,也有助于获取有信息量的密集注释以用于缓解目的。
Feb, 2024
学习算法的表征是机器学习的一个新兴领域,该研究旨在通过神经网络与经典算法的概念相结合。为了统一评估标准并推进统一的评估方法,我们提出了 CLRS 算法推理基准。该基准涵盖从算法导论教材中提取出来的经典算法,跨越了各种算法推理过程,包括排序、搜索、动态规划、图形算法、字符串算法和几何算法。我们进行了大量实验来展示几个流行的算法推理基线在这些任务上的表现,并进一步强调了几个开放挑战的链接。
May, 2022
本文提出了一种用于高级数学推理的数据集,研究了神经序列到序列模型的推理能力。实验结果表明,该任务具有挑战性,但神经模型能够捕捉到非平凡的数学推理,提出的分层 Transformer 的性能也好于基准 Transformer。
Jun, 2020
本文介绍了 Life Scapes Reasoning Benchmark (LSR-Benchmark) 数据集,它是一个针对真实情境推理的新颖数据集,旨在弥补人工神经网络在日常背景下推理能力的差距,并测试了利用 gpt3.5-turbo 和 instruction fine-tuned llama 模型的推理性能。实验结果表明人类在理解日常生活方面仍然优于这些模型,这表明机器学习模型在理解日常人类生活方面仍然面临着挑战。
Jul, 2023
评估金融推理能力的基准和挑战性问题 BizBench,通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估,并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。
Nov, 2023
通过将推理任务转换为检索任务,我们发现,即使没有针对推理级别的语言理解进行专门训练,目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任,特别是在推理密集型任务中。然而,最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力,突显了嵌入模型实现推理级别语言理解的路径。通过微调重新排序模型将推理能力注入其中似乎比对双编码器进行类似操作更容易,我们能够在所有任务中通过微调重新排序模型实现最先进的性能。我们发布由整体任务和设置组成的推理作为检索基准(RAR-b),用于评估检索模型中存储的推理能力。
Apr, 2024
本研究介绍了一种新的基准测试套件,称为 DR.BENCH,旨在开发和评估具有临床诊断推理能力的 cNLP 模型,这是第一个被设计为自然语言生成框架以评估预训练语言模型的临床任务套件。
Sep, 2022
我们提出了一个用于鲁棒评估语言模型推理能力的框架,使用功能变体基准。在静态问题版本与功能变体快照之间,解决推理测试的模型在性能上不应有差异。我们将 MATH 基准的相关片段重写为其功能变体 MATH (),其他基准的函数化会随之进行。通过对 MATH () 的快照评估当前最先进的模型,我们发现存在推理差距 - 静态和功能准确性之间的百分比差。我们发现,在静态基准上表现良好的最先进的闭合和开放权重模型中,推理差距从 58.35% 到 80.31% 不等,激励产生 “gap 0” 模型建设的开放问题。评估代码、新的评估数据集以及三个 MATH () 快照可以在此 https URL 处公开获取。
Feb, 2024
物理推理是开发通用人工智能系统的关键因素,本论文旨在提供现有基准的综述及其解决方法,并提出了衡量人工智能系统物理推理能力的统一观点。我们选择了设计用于测试物理推理任务中算法性能的基准。虽然每个选定的基准都提出了独特的挑战,但它们的集合为具有各种物理推理概念可测量技能水平的通用 AI 代理提供了全面的实践场所。因此,这些基准集合相较于旨在模拟现实世界并交织其复杂性和许多概念的综合基准具有优势。我们将所呈现的一组物理推理基准分为子类别,以首先在这些组上对更窄的通用 AI 代理进行测试。
Dec, 2023
我们提出了一个新的基准评估语言模型中的定性空间推理,该基准建立在逼真的三维仿真数据上,提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性,发现它们在多跳空间推理和解释混合视角描述方面存在困难,并指出了未来改进的方向。
May, 2024