多跳阅读器是否梦想推理链？

Oct, 2019

Do Multi-hop Readers Dream of Reasoning Chains?

Haoyu Wang, Mo Yu, Xiaoxiao Guo, Rajarshi Das, Wenhan Xiong...

TL;DR本文系统分析了多篇文章 QA 任务的多跳推理能力，在提供额外证据段落的情况下，对现有面向多跳阅读的方法进行了改进，并提出了基于匹配的方法，表明进行显示多跳推理可以提高 QA 任务的执行效果，推荐开发更好的推理模型。

Abstract

general question answering (QA) systems over texts require the multi-hop reasoning capability, i.e. the ability to reason with information collected from multiple passages to derive the answer. In this paper we conduct a systematic analysis to assess such an ability of various

general question answering multi-hop reasoning existing models reasoning chains co-matching-based method

发现论文，激发创造

基于推理链的多跳问答

该论文提出了一种在多步问题回答中维护显式推理过程的方法。该方法提取一个离散的推理链，并将其提供给一个基于 BERT 的 QA 模型来进行最终答案预测。我们的方法在两个近期提出的大型多跳问题回答数据集 ——WikiHop 和 HotpotQA 上进行了测试，并取得了令人瞩目的成果。

Oct, 2019

理解并改善生成式问答中的零样本多跳推理

本文研究发现，生成式问答模型的多跳推理能力非常有限，但可以通过训练拼接单跳问题或逻辑形式的方式进行改进。

Oct, 2022

开放域多跳问答的简单而有效的桥接推理

针对开放域多跳问答中通过阅读理解模型识别终止段落锚点的新子问题，介绍了一种新的子问题解决方案 ——“桥接推理器” 。该推理器接受一定程度的监督，通常用于训练一个 “终止段落阅读器”，从一组起始段落中提取答案，实验结果在多个数据集上优于 Baseline 方法。

Sep, 2019

多重思维链元推理问答

本研究通过 Multi-Chain Reasoning 方法，使用大型语言模型针对多个 chain-of-thought 进行 meta-reasoning，提高多跳问答的性能，并生成高质量的解释，结论基于七个多跳 QA 数据集上的测试表现优异。

Apr, 2023

生成式多跳问答任务的常识推理

通过提出一种选择基于概念网络的常识信息和一种选择性门控的多头注意力机制，本文提出了一种生成式模型，用于解决阅读理解 QA 任务中的多跳关系抽取问题，并在 NarrativeQA 数据集上创造新的最先进结果。

Sep, 2018

规模化多跳阅读理解的认知图

本文提出了一种新的 CogQA 框架，用于在 Web 规模文件中进行多跳问题回答。该框架通过协调隐式提取模块（系统 1）和显式推理模块（系统 2）逐步构建认知图。我们的实现基于 BERT 和图神经网络，可高效地处理 HotpotQA fullwiki 数据集中的数百万文档，从而实现在榜单上的胜利。

May, 2019

学习在维基百科图上检索推理路径用于问答

介绍了一种基于图形的循环检索方法，学习在 Wikipedia 图形上检索推理路径来回答多跳开放域问答问题。该方法在三个开放域 QA 数据集上实现了最新技术成果，特别是在 HotpotQA 中表现出显著的改进，超过了以前最好的模型 14 个百分点以上。

Nov, 2019

多跳问答与生成综述

本文提出了一个多跳问题回答（Multi-Hop QA）的具体与形式化定义，并对现有的 Multi-Hop QA 框架进行了组织和总结，同时介绍了创建多跳问题回答数据集的最佳方法，以系统全面地介绍这个有趣而具有挑战性的任务。

Apr, 2022

构建用于全面评估推理步骤的多跳问答数据集

本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集，使用结构化和非结构化数据生成问题 - 答案对，并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验，我们证明了我们的数据集对于多跳模型来说具有挑战性，并确保需要使用多跳推理。

Nov, 2020

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试，证明思路链在语言模型中的实用性，并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界；证明与人类类似，从解释中受益，可以借少训练数据实现相同的性能

Sep, 2022