学习解释:多跳问答中识别有效推理链的数据集和模型
提出了一个新的具有说明和明确证据链的质量高的文本证据复杂问题回答基准 ReasonChainQA,包含具有不同深度的多跳问题,12 种推理类型和 78 种关系。
Oct, 2022
该论文提出了一种在多步问题回答中维护显式推理过程的方法。该方法提取一个离散的推理链,并将其提供给一个基于 BERT 的 QA 模型来进行最终答案预测。我们的方法在两个近期提出的大型多跳问题回答数据集 ——WikiHop 和 HotpotQA 上进行了测试,并取得了令人瞩目的成果。
Oct, 2019
本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集,使用结构化和非结构化数据生成问题 - 答案对,并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验,我们证明了我们的数据集对于多跳模型来说具有挑战性,并确保需要使用多跳推理。
Nov, 2020
利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试,证明思路链在语言模型中的实用性,并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界;证明与人类类似,从解释中受益,可以借少训练数据实现相同的性能
Sep, 2022
本文中,我们提出了一个新的数据集和用户模拟器 e-QRAQ(可解释的查询、推理和回答问题),该数据集测试了代理的读取模糊文本的能力,通过提问来回答挑战性问题并解释其问题和答案的推理。我们使用端到端记忆网络来训练一个神经结构,以成功地生成对问题的预测和部分解释,并发现预测和解释的质量之间存在着很强的相关性。
Aug, 2017
将现有的多跳数据集从抽取性答案转变为生成性答案,通过添加常识、算术和符号推理等问题层次,我们创建了一个新的多跳数据集 MoreHopQA,以评估五个大型语言模型,并发现相较于以往的数据集,我们的数据集更具挑战性,其中部分问题分解的分析表明虽然模型可以正确回答问题,但只有某个部分实现了完美推理。
Jun, 2024
本文介绍了一个多个文本片段组合的重要性,以及如何使用 QASC 数据集进行多跳推理问题的解答。该数据集提供了用于文本检索的事实,并且必须使用常识推理来确定这些不同的事实如何有机组合在一起才能回答多选题。通过提供编码支持事实及其组成,本文提出了一种两步方法来缓解检索挑战,并使用其他多选题数据集作为额外的训练数据来加强推理模型,最终使模型的性能得到 11%(绝对值)的提升,但推理和检索问题仍未得到解决,模型落后于人类表现 20%。
Oct, 2019
大语言模型(LLMs)在自然语言理解任务中取得了显著进展,但是理解它们的决策过程仍然是一个巨大的挑战。本文通过引入一种新的解释数据集,将知识图谱(KGs)与问答(QA)任务以一种新颖的方式集成,为这一过程带来了一定的透明度。通过定量和定性评估,我们展示了我们的数据集提高了 LLMs 的上下文学习能力,并增强了它们的可解释性。我们的工作通过深入理解 LLMs 的决策过程,使其更加透明,从而对研究人员和从业人员更可靠,为可解释 AI 领域做出贡献。
Nov, 2023