通过伪证据训练来增强多跳问答的鲁棒性

ACLJul, 2021

通过伪证据训练来增强多跳问答的鲁棒性

Robustifying Multi-hop QA through Pseudo-Evidentiality Training

Kyungjae Lee, Seung-won Hwang, Sang-eun Han, Dohyeon Lee

TL;DR本文研究了多跳问答模型中的偏差问题，提出了一种不需要额外昂贵的注释即可学习证据性的新方法，在 HotpotQA 验证了该方法准确，鲁棒性强。

Abstract

This paper studies the bias problem of multi-hop question answering models, of answering correctly without correct reasoning. One way to robustify these models is by supervising to not only answer right, but also

multi-hop question answering bias problem reasoning chains evidentiality hotpotqa

发现论文，激发创造

避免推理捷径：多跳问答的对抗评估、训练和模型开发

本论文针对 HotpotQA 数据集中的多跳问题回答过程中存在 reasoning shortcuts 的问题，通过构建对抗性文档解决了该问题。同时，提出使用控制单元指导模型的多跳推理，使得 2-hop 模型在 1-hop baseline 的基础上获得更高的准确性。结果表明，该训练方式对于构建更加有效的组合推理模型非常有帮助。

Jun, 2019

基于推理链的多跳问答

该论文提出了一种在多步问题回答中维护显式推理过程的方法。该方法提取一个离散的推理链，并将其提供给一个基于 BERT 的 QA 模型来进行最终答案预测。我们的方法在两个近期提出的大型多跳问题回答数据集 ——WikiHop 和 HotpotQA 上进行了测试，并取得了令人瞩目的成果。

Oct, 2019

HOP, UNION, GENERATE: 可解释的无需理由监督的多跳推理

该研究提出了一种基于概率的方法来训练可解释的多跳问答系统，该系统可以在无需基于理由的监督的情况下进行训练。该方法将理由明确建模为集合，能够在文档之间以及文档内部的句子之间进行交互和多跳推理，这种方法在选择理由方面比之前的方法更加准确。

May, 2023

理解并改善生成式问答中的零样本多跳推理

本文研究发现，生成式问答模型的多跳推理能力非常有限，但可以通过训练拼接单跳问题或逻辑形式的方式进行改进。

Oct, 2022

构建用于全面评估推理步骤的多跳问答数据集

本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集，使用结构化和非结构化数据生成问题 - 答案对，并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验，我们证明了我们的数据集对于多跳模型来说具有挑战性，并确保需要使用多跳推理。

Nov, 2020

基于提示的多跳问题回答的保护性学习

本文提出了 Prompt-based Conservation Learning (PCL) 框架，提供支持证据不足以证明模型已完成所需推理以获得正确答案。通过在单跳 QA 任务上训练模型并为多跳 QA 任务分配额外的子网络，PCL 获得了新的知识并在保留旧知识的同时减轻了遗忘。实验结果表明，PCL 在多跳 QA 方面具有竞争力，并保留了相应的单跳子问题的良好性能。

Sep, 2022

多跳阅读器是否梦想推理链？

本文系统分析了多篇文章 QA 任务的多跳推理能力，在提供额外证据段落的情况下，对现有面向多跳阅读的方法进行了改进，并提出了基于匹配的方法，表明进行显示多跳推理可以提高 QA 任务的执行效果，推荐开发更好的推理模型。

Oct, 2019

多跳 QA 处于 DiRe 状态？测量和减少断开的推理

对多跳问题回答中的断开推理进行了形式化描述，并提出了一种自动转换现有数据集的方法来减少断开推理，表明在阅读理解设置中，快速大规模模型也存在重大局限性。

May, 2020

学习解释：多跳问答中识别有效推理链的数据集和模型

本研究引入了三种不同类型的解释数据集，发现基于 BERT 分类器的方法能够显著提高解释质量，同时通过使用广义推理链，使得对某些扰动更具鲁棒性。

Oct, 2020

强化多任务方法用于多跳问题生成

使用多任务学习和强化学习的方法，通过支持事实的多次跳转生成相关问题，相比于单次跳转模型，我们的模型在 HotPotQA 数据集上表现更好（同时在自动评估指标如 BLEU、METEOR 和 ROUGE 以及人工评估指标中都有着更高的质量和覆盖率）。

Apr, 2020