多跳推理数据集设计选择的理解

Apr, 2019

Understanding Dataset Design Choices for Multi-hop Reasoning

Jifan Chen, Greg Durrett

TL;DR本文研究两个新的数据集对于多跳推理问题，探究了句子分层模型和无标记版本中的伪相关性。结果表明，高绩效模型可能没有像以前想象的那样学到足够的多跳推理。

Abstract

Learning multi-hop reasoning has been a key challenge for reading comprehension models, leading to the design of datasets that explicitly

发现论文，激发创造

构建跨文档多跳阅读理解数据集

该研究提出了一项新的任务，以鼓励模型跨多个文档进行文本理解并探究现有方法的限制。该任务要求模型学习查找和组合证据，从而实现多跳（别名为多步）推理，但两个先前的竞争性模型都在选择相关信息方面遇到了困难。

Oct, 2017

HotpotQA: 一个用于多阶段问题回答的多样化和可解释数据集

HotpotQA是一个新的基于维基百科的问题-答案对数据集，它具有多篇支持文献上的复杂推理和解释性问题，并提供了对推理所需的句子级支持事实，可以让QA系统进行强有力的推理，挑战了最新的QA系统。

Sep, 2018

组合问题不需要多跳推理

在多次阅读和推理的问题中，通过HotpotQA我们证明单次推理可以解决比之前认为的更多的数据集并且设计了一个基于BERT的单次推理RC模型，达到了67个F1值，在多次推理的错误分析中这些结果提示我们应该更加注重证据在多次推理中的作用，可能甚至转向信息检索风格评估大而多样的证据收集。

Jun, 2019

QASC: 句子组合问答数据集

本文介绍了一个多个文本片段组合的重要性，以及如何使用 QASC 数据集进行多跳推理问题的解答。该数据集提供了用于文本检索的事实，并且必须使用常识推理来确定这些不同的事实如何有机组合在一起才能回答多选题。通过提供编码支持事实及其组成，本文提出了一种两步方法来缓解检索挑战，并使用其他多选题数据集作为额外的训练数据来加强推理模型，最终使模型的性能得到 11%（绝对值）的提升，但推理和检索问题仍未得到解决，模型落后于人类表现20%。

Oct, 2019

多跳阅读器是否梦想推理链？

本文系统分析了多篇文章QA任务的多跳推理能力，在提供额外证据段落的情况下，对现有面向多跳阅读的方法进行了改进，并提出了基于匹配的方法，表明进行显示多跳推理可以提高QA任务的执行效果，推荐开发更好的推理模型。

Oct, 2019

构建用于全面评估推理步骤的多跳问答数据集

本研究创建了一个名为2WikiMultiHopQA的新的多跳问题回答数据集，使用结构化和非结构化数据生成问题-答案对，并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验，我们证明了我们的数据集对于多跳模型来说具有挑战性，并确保需要使用多跳推理。

Nov, 2020

多跳问答与生成综述

本文提出了一个多跳问题回答（Multi-Hop QA）的具体与形式化定义，并对现有的Multi-Hop QA框架进行了组织和总结，同时介绍了创建多跳问题回答数据集的最佳方法，以系统全面地介绍这个有趣而具有挑战性的任务。

Apr, 2022

多跳阅读理解模型对日期信息的理解能力如何？

该研究提出了HieraDate数据集，分析了多跳模型在比较问题的逐步推理和内部推理过程的能力。结果表明，多跳模型在减去两个日期的计算中表现不佳。同时，研究发现，当在主QA任务中使用探针问题时，模型的性能得到了显著提高，并且该数据集可以用于数据增强以提高模型的鲁棒性。

Oct, 2022

多跳问答中底层推理任务有效性分析

通过分析采用底层推理任务（包括句子级和实体级）对三个方面的影响（1.问答性能，2.推理捷径， 3.鲁棒性），我们建立了一个多任务模型来执行三个任务：句子级支撑事实预测，实体级推理预测和答案预测，实验结果表明底层推理任务可以提高问题回答的性能和防止推理捷径，但是却不能提高对小问题和反问题等对抗性问题的鲁棒性。

Feb, 2023

MoreHopQA: 超越多跳推理

将现有的多跳数据集从抽取性答案转变为生成性答案，通过添加常识、算术和符号推理等问题层次，我们创建了一个新的多跳数据集MoreHopQA，以评估五个大型语言模型，并发现相较于以往的数据集，我们的数据集更具挑战性，其中部分问题分解的分析表明虽然模型可以正确回答问题，但只有某个部分实现了完美推理。

Jun, 2024