WIQA：一份针对过程文本中的 “What if…” 推理的数据集

EMNLPSep, 2019

WIQA：一份针对过程文本中的 “What if…” 推理的数据集

WIQA: A dataset for "What if..." reasoning over procedural text

Niket Tandon, Bhavana Dalvi Mishra, Keisuke Sakaguchi, Antoine Bosselut, Peter Clark

TL;DRWIQA 是一个包含大量关于程序性文本 “What if…” 问题的数据集，其中包括描述过程的段落、描述一个变化如何影响另一个的众包影响图和从图中派生的大量 “what if…” 多项选择问题，包括对段落中提到的步骤进行干扰、需要常识知识的外部干扰以及无关紧要的干扰等三种类型。我们发现，当前的最先进模型的准确率为 73.8％，远低于人类表现的 96.3%。该数据集是社区的一个开放性挑战，其中一个主要的挑战是跟踪影响链。

Abstract

We introduce wiqa, the first large-scale dataset of "What if..." questions over procedural text. wiqa contains three parts: a collection o

wiqa procedural text influence graphs multiple-choice questions perturbations

发现论文，激发创造

IfQA: 面向反事实前提的开放领域问答数据集

本文介绍了第一个 counterfactual open-domain question-answering（QA）数据集（IfQA），并通过在该数据集上进行实证分析证明了如果就文本假设进行推理和检索是一项具有挑战性的任务。

May, 2023

如果……” 程序推理相关常识子图

本研究旨在通过外部常识知识帮助解决学习因果推理的挑战，我们提出了一种新颖的多跳图推理模型来预测因果答案，从而在 WIQA 基准测试中实现了最先进的性能水平。

Mar, 2022

关系门控在 “What If” 推理中的应用

本篇论文提出了一种基于关系门控网络的程序推理方法，该方法通过实体门控模块、关系门控模块和上下文交互模块过滤关键实体和关系，为 “假如...” 问题提供答案，并在 WIQA 数据集上实现了最优结果。

May, 2021

基于知识的反事实查询在视觉问答中的应用

本文通过利用结构化知识库进行确定性、最优和可控的词级替换，以探究 VQA 模型行为的解释和鲁棒性，并从反事实的回答中提取局部和全局解释，发现可能的偏见和影响模型的性能的预期和意外模式，揭示了模型决策过程中的潜在偏见。

Mar, 2023

WikiWhy：回答和解释因果问题

通过构建一个包含九千多个问题 - 答案 - 理由三元组的 QA 数据集 “WikiWhy”，确定大型语言模型（LLMs）的推理能力，该数据集的每个理由都是一组支持语句，它们将问题和答案连接起来。 GPT-3 只能在结束的答案和解释条件下达到 38.7％的人类正确率，这为未来的改进留下了很大的空间。

Oct, 2022

TellMeWhy: 一个用于解答叙述中 Why 问题的数据集

介绍了 TellMeWhy 数据集，该数据集包含超过 30k 个关于短篇小说角色为何采取某些行动的问题和自由格式答案。通过对最先进模型的评估表明，它们在回答需要外部常识知识支持的问题上远远低于人类表现。

Jun, 2021

多关系问答：基于叙述的机器阅读与推理在模拟世界中的应用

本论文探索了一种独特的用户指导的知识源，介绍了个人叙述的多关系问答。作者生成并发布了五个数据集 (TextWorldsQA)，并在该任务上对几种最先进的问答模型及其变种进行了全面的评估和分析，以及发布了一个轻量级的 Python 框架 (TextWorlds)，用于生成任意的世界和叙述。

Feb, 2019

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021