本论文针对 HotpotQA 数据集中的多跳问题回答过程中存在 reasoning shortcuts 的问题,通过构建对抗性文档解决了该问题。同时,提出使用控制单元指导模型的多跳推理,使得 2-hop 模型在 1-hop baseline 的基础上获得更高的准确性。结果表明,该训练方式对于构建更加有效的组合推理模型非常有帮助。
Jun, 2019
该论文提出了一种在多步问题回答中维护显式推理过程的方法。该方法提取一个离散的推理链,并将其提供给一个基于 BERT 的 QA 模型来进行最终答案预测。我们的方法在两个近期提出的大型多跳问题回答数据集 ——WikiHop 和 HotpotQA 上进行了测试,并取得了令人瞩目的成果。
Oct, 2019
该研究提出了一种基于概率的方法来训练可解释的多跳问答系统,该系统可以在无需基于理由的监督的情况下进行训练。该方法将理由明确建模为集合,能够在文档之间以及文档内部的句子之间进行交互和多跳推理,这种方法在选择理由方面比之前的方法更加准确。
May, 2023
本文研究发现,生成式问答模型的多跳推理能力非常有限,但可以通过训练拼接单跳问题或逻辑形式的方式进行改进。
Oct, 2022
本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集,使用结构化和非结构化数据生成问题 - 答案对,并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验,我们证明了我们的数据集对于多跳模型来说具有挑战性,并确保需要使用多跳推理。
Nov, 2020
本文提出了 Prompt-based Conservation Learning (PCL) 框架,提供支持证据不足以证明模型已完成所需推理以获得正确答案。通过在单跳 QA 任务上训练模型并为多跳 QA 任务分配额外的子网络,PCL 获得了新的知识并在保留旧知识的同时减轻了遗忘。实验结果表明,PCL 在多跳 QA 方面具有竞争力,并保留了相应的单跳子问题的良好性能。
Sep, 2022
本文系统分析了多篇文章 QA 任务的多跳推理能力,在提供额外证据段落的情况下,对现有面向多跳阅读的方法进行了改进,并提出了基于匹配的方法,表明进行显示多跳推理可以提高 QA 任务的执行效果,推荐开发更好的推理模型。
对多跳问题回答中的断开推理进行了形式化描述,并提出了一种自动转换现有数据集的方法来减少断开推理,表明在阅读理解设置中,快速大规模模型也存在重大局限性。
May, 2020
本研究引入了三种不同类型的解释数据集,发现基于 BERT 分类器的方法能够显著提高解释质量,同时通过使用广义推理链,使得对某些扰动更具鲁棒性。
Oct, 2020
使用多任务学习和强化学习的方法,通过支持事实的多次跳转生成相关问题,相比于单次跳转模型,我们的模型在 HotPotQA 数据集上表现更好(同时在自动评估指标如 BLEU、METEOR 和 ROUGE 以及人工评估指标中都有着更高的质量和覆盖率)。
Apr, 2020