BaRDa：一份将事实准确性和推理能力分开的信念与推理数据集

Dec, 2023

BaRDa：一份将事实准确性和推理能力分开的信念与推理数据集

BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy and Reasoning Ability

Peter Clark, Bhavana Dalvi Mishra, Oyvind Tafjord

TL;DR这篇论文描述了一个名为 BaRDa 的数据集，通过利用和扩展人工注释的 “蕴涵树” 来区分现代语言模型的 “事实准确性” 和 “推理能力”，其中包括真实和虚假事实的混合使用，尤其包括反事实例子，以避免信念偏见（也称为 “内容效应”）; 在四个 GPT 系列模型上测试后发现，模型的事实准确性得分分别为 74.1/80.6/82.6/87.1，推理准确性得分分别为 63.1/78.0/71.8/79.2，这表明模型在事实准确性和蕴涵推理方面有了明显进步，而该数据集提供了一个更清晰地区分和量化这两个概念的新基准。

Abstract

While there are numerous benchmarks comparing the performance of modern language models (LMs), end-task evaluations often conflate notions of *factual accuracy* ("truth") and *reasoning ability* ("rationality", o

language models factual accuracy reasoning ability entailment trees belief bias

发现论文，激发创造

数据推理学习之悖论

本研究考察了在自然语言中可以用 BERT 模型来训练端到端地解决逻辑推理问题吗？通过监察矛盾的现象，研究发现 BERT 虽然能够在某些测试实例中达到近乎完美的准确率，但却不能在完全相同的问题空间中泛化到其它数据分布上。我们展示了这是因为 BERT 并没有学习正确的推理函数，而是学习了逻辑推理问题中固有的统计特征。此研究结果自然推广到其他神经模型，并揭示了学习推理与学习利用统计特征在 NLP 基准测试中高绩效之间的根本差异。

May, 2022

探究神经网络对自然语言论证的理解

本文揭示出 BERT 在 Argument Reasoning Comprehension Task 上表现出色的原因并构建了一个更具有鲁棒性的对抗数据集以评估论证理解。

Jul, 2019

使用 NeuBAROCO 评估大型语言模型的三段论推理能力和类人偏见

本文研究当前的大型语言模型是否存在逻辑推理的偏见，探讨三种主要偏见类型，并介绍一种心理实验数据集 NeuBAROCO。通过分析数据集，发现当前的大型语言模型在涉及到这三种类型偏见的问题上表现欠佳。

Jun, 2023

TabFact：一个用于基于表格的事实验证的大规模数据集

本文介绍 TabFact 数据集，其中包含 118k 人工标注的自然语言陈述，并以 16k 个 Wikipedia 表格作为证据，同时介绍了 Table-BERT 和 LPA，这两种算法都能在半结构化数据情况下进行事实验证，都有优点和不足之处，但是都能被进一步开发优化。

Sep, 2019

MARS：用多任务评估数据集评估语言模型的形而上学推理能力

为了使大型语言模型（LLMs）能够成为具有可推广的推理能力的有意识的代理人，关键是它们具备理解由环境因素或其他代理人的行动触发的分布情况变化（转换）的推理能力。我们提出了一种新颖的推理形式，称为 MetAphysical ReaSoning，它将分布变化的推理视为一个三步骤的判别过程，并引入了首个基准测试 MARS 来评估 LLMs 在推理行动变化引起的可能性、由变化行动引起的状态以及由行动变化驱动的情境转换方面的能力。深入评估显示，即使对于最先进的 LLMs 和经过微调的 LMs 而言，该过程中的所有三个任务都带来了重大挑战。进一步的分析揭示了 LLMs 表现不佳的潜在原因，并证明了在大规模概念分类法中预训练 LLMs 可以潜在地增强其形而上学推理能力。我们的数据和模型可以在此 https URL 上公开访问。

Jun, 2024

LLM 是否具备基于数据的统计和因果推理能力？通过数据进行高级量化推理的基准测试

定量推理是分析数据的关键技能，本研究引入 QRData 基准，旨在评估大型语言模型对现实世界数据的统计和因果推理能力。研究在一组精心构建的数据集中评估了不同模型的定量推理能力，并发现模型在数据分析和因果推理方面存在困难，同时难以同时使用因果知识和提供的数据。

Feb, 2024

RAR-b: 推理作为检索的基准

通过将推理任务转换为检索任务，我们发现，即使没有针对推理级别的语言理解进行专门训练，目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任，特别是在推理密集型任务中。然而，最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力，突显了嵌入模型实现推理级别语言理解的路径。通过微调重新排序模型将推理能力注入其中似乎比对双编码器进行类似操作更容易，我们能够在所有任务中通过微调重新排序模型实现最先进的性能。我们发布由整体任务和设置组成的推理作为检索基准（RAR-b），用于评估检索模型中存储的推理能力。

Apr, 2024

利用 NLI 探索事实蕴含关系：新闻媒体研究

探索事实性与自然语言推理之间的关系，并引入 FactRel 注释方案来模拟事实性推理，分析表明，事实性支持对和事实性削弱对的大部分情况不构成自然语言推理的蕴含或矛盾关系，这表明事实关系更适合分析媒体话语；在新数据集上进行了对比分类模型的实验，并发现在某些情况下，基于注释数据集使用 GPT-4 生成合成数据可以提高性能，而使用 GPT-4 进行少样本学习的结果与在标注数据集上训练的中型语言模型（DeBERTa）相当强大，这些结果表明此任务在世界知识和高级推理能力上的基本依赖关系。

Jun, 2024

超越显而易见：基于生活景象的语言模型推理能力评估 (LSR-Benchmark)

本文介绍了 Life Scapes Reasoning Benchmark (LSR-Benchmark) 数据集，它是一个针对真实情境推理的新颖数据集，旨在弥补人工神经网络在日常背景下推理能力的差距，并测试了利用 gpt3.5-turbo 和 instruction fine-tuned llama 模型的推理性能。实验结果表明人类在理解日常生活方面仍然优于这些模型，这表明机器学习模型在理解日常人类生活方面仍然面临着挑战。

Jul, 2023

自然语言推理的灵活生成

本研究提出了 ParaPattern，该方法利用自动化流程从维基百科生成训练数据，并使用 BART 模型在无直接人类监督下从多样的自然语言输入中生成演绎推理，结果表明，ParaPattern 模型在无领域训练数据的情况下，表现优于基线系统。

Apr, 2021