使用多任务学习和强化学习的方法,通过支持事实的多次跳转生成相关问题,相比于单次跳转模型,我们的模型在 HotPotQA 数据集上表现更好(同时在自动评估指标如 BLEU、METEOR 和 ROUGE 以及人工评估指标中都有着更高的质量和覆盖率)。
Apr, 2020
本文研究发现,生成式问答模型的多跳推理能力非常有限,但可以通过训练拼接单跳问题或逻辑形式的方式进行改进。
Oct, 2022
本文提出了一种新颖的多跳常识知识注入框架,利用多跳推理范式探索符合语言逻辑的知识图关系,并进一步提出了基于知识图的两种多跳问答生成方法。通过对合成 QA 数据集进行对比学习,我们的方法注入了多跳常识知识。在五个常识问题回答基准测试上进行的大量实验表明,本框架取得了最先进的性能。
May, 2023
本文提出了一个多跳问题回答(Multi-Hop QA)的具体与形式化定义,并对现有的 Multi-Hop QA 框架进行了组织和总结,同时介绍了创建多跳问题回答数据集的最佳方法,以系统全面地介绍这个有趣而具有挑战性的任务。
Apr, 2022
本文提出了一种基于问题生成的新型多跳问答方法,通过精心设计端到端的 QG 模块,在上下文理解中提出内在逻辑子问题,从而继承了 QD 方法的可解释性并表现出较高的性能。实验证明,我们提出的 QG 模块是有效的,在流畅性、一致性和多样性方面优于 QD 方法,并获得了人工评估的定量可解释性。
Mar, 2022
本文提出了一种利用常识知识图谱,将结构信息和语义信息结合到推理中,提高语言模型在生成任务中处理常识知识的准确性。通过动态多跳推理模块,本文建立了 Generation with Multi-Hop Reasoning Flow (GRF) 模型,实验表明该模型在三个包含常识知识推理的生成任务中的表现优于现有基线模型。
Sep, 2020
本研究提出了一种 QA4QG 方法,通过加入多次问答(QA)模块来限制生成问题。实验结果显示,QA4QG 在 HotpotQA 数据集上优于所有先前报告的最佳结果。
Feb, 2022
将现有的多跳数据集从抽取性答案转变为生成性答案,通过添加常识、算术和符号推理等问题层次,我们创建了一个新的多跳数据集 MoreHopQA,以评估五个大型语言模型,并发现相较于以往的数据集,我们的数据集更具挑战性,其中部分问题分解的分析表明虽然模型可以正确回答问题,但只有某个部分实现了完美推理。
Jun, 2024
该研究提出了一种基于概率的方法来训练可解释的多跳问答系统,该系统可以在无需基于理由的监督的情况下进行训练。该方法将理由明确建模为集合,能够在文档之间以及文档内部的句子之间进行交互和多跳推理,这种方法在选择理由方面比之前的方法更加准确。
本文研究两个新的数据集对于多跳推理问题,探究了句子分层模型和无标记版本中的伪相关性。结果表明,高绩效模型可能没有像以前想象的那样学到足够的多跳推理。
Apr, 2019