该论文提出了一种在多步问题回答中维护显式推理过程的方法。该方法提取一个离散的推理链,并将其提供给一个基于BERT的QA模型来进行最终答案预测。我们的方法在两个近期提出的大型多跳问题回答数据集——WikiHop和HotpotQA上进行了测试,并取得了令人瞩目的成果。
Oct, 2019
本文旨在开发一种简单的基于表格的问答模型,采用全能预训练方法结合自然和合成数据,实现问题与表格的对齐和多元素复杂推理,实验证明该模型在少量和全量数据上性能卓越,在WikiTableQuestions数据集上成为新的最优模型,讨论分析自然数据和合成数据的不同特点,为全能预训练提供未来方向。
Jul, 2022
本文提出了一种关系图增强型的混合表文本数值推理模型,将表-文本混合内容的数值问题回答建模为表达式树生成任务,并在公开基准测试中验证了其性能。
Sep, 2022
提出了一个新的具有说明和明确证据链的质量高的文本证据复杂问题回答基准ReasonChainQA,包含具有不同深度的多跳问题,12种推理类型和78种关系。
Oct, 2022
提出一种新颖的开放领域问答框架,使用中介模块对异构知识源上的单跳/多跳问题进行回答。在预训练语言模型的基础上,通过将检索到的证据与其相关的全局上下文链接到图中,并将它们组织成候选证据链,实现了竞争性的性能。在两个ODQA数据集OTT-QA和NQ上,我们的模型显著优于之前最先进的方法,在OTT-QA上具有47.3的精确匹配分数(相对增益45%)。
本研究通过 Multi-Chain Reasoning 方法,使用大型语言模型针对多个 chain-of-thought 进行 meta-reasoning,提高多跳问答的性能,并生成高质量的解释,结论基于七个多跳 QA 数据集上的测试表现优异。
Apr, 2023
在本文中,我们提出了一个三阶段的TextTableQA框架S3HQA,它包括检索器、选择器和推理器。在推理操作方面,我们采用了基于生成模型的推理器,包括一种行生成器和LLM提示生成器(首次在这一任务中使用)。实验结果表明,我们的方法在少样本情况下取得了竞争性成果。当在整个数据集上训练时,我们的方法优于所有基线方法,在HybridQA排行榜上排名第一。
May, 2023
使用Chain-of-Table框架,以表格数据作为推理链的中间思考代理,引导大型语言模型通过上下文学习不断生成操作、更新表格,并持续演化形成一个展示给定表格问题推理过程的链条,从而实现更准确可靠的预测结果。
Jan, 2024
我们引入了Reveal:推理验证评估,这是一个新的数据集,用于在开放域问题回答设置中评估复杂的链式推理的自动验证器,包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。
Feb, 2024
SPAGHETTI是一个混合问答(QA)流水线,利用来自知识库、文本、表格和信息框的异构知识源,通过LLM增强方法在Compmix数据集上取得了最先进的性能,达到了56.5%的精确匹配(EM)率。更重要的是,对数据集的一部分进行手动分析表明,SPAGHETTI的准确率超过90%,表明EM不再适用于评估当前的QA系统的能力。
Jun, 2024