本文提出通过结构化知识图谱中的随机游走来指导语言模型完成多跳推理,从而有效解决语言模型在问答任务中组合多条逻辑事实的限制,并在两个 T5 语言模型上取得了显著的实验效果提升。
Jun, 2023
本文提出了一个复杂的时间问答(QA)数据集 Complex-TR,重点关注多答案和多跳的时间推理,并提出了一种新颖的数据增强策略来改善大型语言模型(LLMs)的复杂时间推理能力和鲁棒性。实验证明,我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。
Nov, 2023
本文研究发现,生成式问答模型的多跳推理能力非常有限,但可以通过训练拼接单跳问题或逻辑形式的方式进行改进。
Oct, 2022
本文提出了一种新颖的多跳常识知识注入框架,利用多跳推理范式探索符合语言逻辑的知识图关系,并进一步提出了基于知识图的两种多跳问答生成方法。通过对合成 QA 数据集进行对比学习,我们的方法注入了多跳常识知识。在五个常识问题回答基准测试上进行的大量实验表明,本框架取得了最先进的性能。
May, 2023
将现有的多跳数据集从抽取性答案转变为生成性答案,通过添加常识、算术和符号推理等问题层次,我们创建了一个新的多跳数据集 MoreHopQA,以评估五个大型语言模型,并发现相较于以往的数据集,我们的数据集更具挑战性,其中部分问题分解的分析表明虽然模型可以正确回答问题,但只有某个部分实现了完美推理。
Jun, 2024
本论文提出了 MQA-QG 框架,利用同质和异质数据源生成类人问答对数据,从而实现集成式自监督多跳 QA 模型训练,实验结果表明仅利用生成的数据即可训练出在 HybridQA 和 HotpotQA 数据集上分别达到监督学习性能 61% 和 83% 的多跳 QA 系统,同时利用生成数据进行预训练可以大大减少人工标注训练数据的需求。
Oct, 2020
通过提出一种选择基于概念网络的常识信息和一种选择性门控的多头注意力机制,本文提出了一种生成式模型,用于解决阅读理解 QA 任务中的多跳关系抽取问题,并在 NarrativeQA 数据集上创造新的最先进结果。
Sep, 2018
本文提出了一个多跳问题回答(Multi-Hop QA)的具体与形式化定义,并对现有的 Multi-Hop QA 框架进行了组织和总结,同时介绍了创建多跳问题回答数据集的最佳方法,以系统全面地介绍这个有趣而具有挑战性的任务。
Apr, 2022
使用多任务学习和强化学习的方法,通过支持事实的多次跳转生成相关问题,相比于单次跳转模型,我们的模型在 HotPotQA 数据集上表现更好(同时在自动评估指标如 BLEU、METEOR 和 ROUGE 以及人工评估指标中都有着更高的质量和覆盖率)。
Apr, 2020
通过底层方法选择单跳问题对,构建了 MuSiQue-Ans 数据集,包含 2-4 跳问题,比现有数据集更具挑战性,难以通过断开推理进行作弊,旨在帮助自然语言处理社区开发真正具备多跳推理能力的模型。
Aug, 2021