学习解释：多跳问答中识别有效推理链的数据集和模型

EMNLPOct, 2020

学习解释：多跳问答中识别有效推理链的数据集和模型

Learning to Explain: Datasets and Models for Identifying Valid Reasoning Chains in Multihop Question-Answering

Harsh Jhamtani, Peter Clark

TL;DR本研究引入了三种不同类型的解释数据集，发现基于 BERT 分类器的方法能够显著提高解释质量，同时通过使用广义推理链，使得对某些扰动更具鲁棒性。

Abstract

Despite the rapid progress in multihop question-answering (QA), models still have trouble explaining why an answer is correct, with limited explanation training data available to learn from. To address this, we introduce three →

multihop question-answering explanation datasets bert-based classifier generalized reasoning chains obqa dataset

发现论文，激发创造

ReasonChainQA：基于文本的复杂问答解答，具有可解释的证明链

提出了一个新的具有说明和明确证据链的质量高的文本证据复杂问题回答基准 ReasonChainQA，包含具有不同深度的多跳问题，12 种推理类型和 78 种关系。

Oct, 2022

基于推理链的多跳问答

该论文提出了一种在多步问题回答中维护显式推理过程的方法。该方法提取一个离散的推理链，并将其提供给一个基于 BERT 的 QA 模型来进行最终答案预测。我们的方法在两个近期提出的大型多跳问题回答数据集 ——WikiHop 和 HotpotQA 上进行了测试，并取得了令人瞩目的成果。

Oct, 2019

构建用于全面评估推理步骤的多跳问答数据集

本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集，使用结构化和非结构化数据生成问题 - 答案对，并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验，我们证明了我们的数据集对于多跳模型来说具有挑战性，并确保需要使用多跳推理。

Nov, 2020

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试，证明思路链在语言模型中的实用性，并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界；证明与人类类似，从解释中受益，可以借少训练数据实现相同的性能

Sep, 2022

多跳推理数据集设计选择的理解

本文研究两个新的数据集对于多跳推理问题，探究了句子分层模型和无标记版本中的伪相关性。结果表明，高绩效模型可能没有像以前想象的那样学到足够的多跳推理。

Apr, 2019

e-QRAQ: 一个带解释的多轮推理数据集与模拟器

本文中，我们提出了一个新的数据集和用户模拟器 e-QRAQ（可解释的查询、推理和回答问题），该数据集测试了代理的读取模糊文本的能力，通过提问来回答挑战性问题并解释其问题和答案的推理。我们使用端到端记忆网络来训练一个神经结构，以成功地生成对问题的预测和部分解释，并发现预测和解释的质量之间存在着很强的相关性。

Aug, 2017

MoreHopQA: 超越多跳推理

将现有的多跳数据集从抽取性答案转变为生成性答案，通过添加常识、算术和符号推理等问题层次，我们创建了一个新的多跳数据集 MoreHopQA，以评估五个大型语言模型，并发现相较于以往的数据集，我们的数据集更具挑战性，其中部分问题分解的分析表明虽然模型可以正确回答问题，但只有某个部分实现了完美推理。

Jun, 2024

QASC: 句子组合问答数据集

本文介绍了一个多个文本片段组合的重要性，以及如何使用 QASC 数据集进行多跳推理问题的解答。该数据集提供了用于文本检索的事实，并且必须使用常识推理来确定这些不同的事实如何有机组合在一起才能回答多选题。通过提供编码支持事实及其组成，本文提出了一种两步方法来缓解检索挑战，并使用其他多选题数据集作为额外的训练数据来加强推理模型，最终使模型的性能得到 11%（绝对值）的提升，但推理和检索问题仍未得到解决，模型落后于人类表现 20%。

Oct, 2019

通过伪证据训练来增强多跳问答的鲁棒性

本文研究了多跳问答模型中的偏差问题，提出了一种不需要额外昂贵的注释即可学习证据性的新方法，在 HotpotQA 验证了该方法准确，鲁棒性强。

Jul, 2021

XplainLLM：理解 LLM 决策的 QA 解释数据集

大语言模型（LLMs）在自然语言理解任务中取得了显著进展，但是理解它们的决策过程仍然是一个巨大的挑战。本文通过引入一种新的解释数据集，将知识图谱（KGs）与问答（QA）任务以一种新颖的方式集成，为这一过程带来了一定的透明度。通过定量和定性评估，我们展示了我们的数据集提高了 LLMs 的上下文学习能力，并增强了它们的可解释性。我们的工作通过深入理解 LLMs 的决策过程，使其更加透明，从而对研究人员和从业人员更可靠，为可解释 AI 领域做出贡献。

Nov, 2023