使用潜在答案进行链式问题训练以实现强韧性的多步问题回答
通过引入 “分解和查询”(D&Q) 框架,使得大规模语言模型在回答问题时能够避免幻觉,通过引导模型思考并利用外部知识,同时限制其思考范围在可靠信息内,从而有效减轻了幻觉的风险。实验证实了 D&Q 的有效性:在我们的 ChitChatQA 数据集上,D&Q 在 67%的情况下不输给 ChatGPT;在 HotPotQA 的仅问题设置下,D&Q 获得了 59.6%的 F1 得分。我们的代码可在此 https URL 找到。
Nov, 2023
我们提出了一种多模态且具有检索增强的问题回答的行动链框架,通过系统提示和预设计的行动将复杂问题分解为推理链。我们使用三种可调整领域的 “即插即用” 操作来从异构来源中检索实时信息,并提出了一个多参考信任分数(MRFS)来验证和解决答案中的冲突。通过公共基准测试和 Web3 案例研究,我们验证了 CoA 相对于其他方法的能力。
Mar, 2024
该论文提出了一种在多步问题回答中维护显式推理过程的方法。该方法提取一个离散的推理链,并将其提供给一个基于 BERT 的 QA 模型来进行最终答案预测。我们的方法在两个近期提出的大型多跳问题回答数据集 ——WikiHop 和 HotpotQA 上进行了测试,并取得了令人瞩目的成果。
Oct, 2019
本研究通过 Multi-Chain Reasoning 方法,使用大型语言模型针对多个 chain-of-thought 进行 meta-reasoning,提高多跳问答的性能,并生成高质量的解释,结论基于七个多跳 QA 数据集上的测试表现优异。
Apr, 2023
利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试,证明思路链在语言模型中的实用性,并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界;证明与人类类似,从解释中受益,可以借少训练数据实现相同的性能
Sep, 2022
在这篇文章中,我们提出了自主启发式链式思考 (SP-CoT) 自动化框架,用于大规模生成高质量的多跳推理数据集并通过上下文学习实现自主启发式推理,实验证明 SP-CoT 在大规模和小规模语言模型上的性能均显著优于前沿方法,并能在中间步骤中召回约 50% 的中间答案。
Oct, 2023
本文提出了一种基于问题生成的新型多跳问答方法,通过精心设计端到端的 QG 模块,在上下文理解中提出内在逻辑子问题,从而继承了 QD 方法的可解释性并表现出较高的性能。实验证明,我们提出的 QG 模块是有效的,在流畅性、一致性和多样性方面优于 QD 方法,并获得了人工评估的定量可解释性。
Mar, 2022
本研究关注对话式问题生成作为一种产生训练和评估目的的合成对话的手段,并设计了 ChainCQG 作为一种跨多个对话回合学习问题 - 答案表征的系统,显著优于 SOTA 基线并能够生成各种类型的问题。
Feb, 2021
提出一种新颖的开放领域问答框架,使用中介模块对异构知识源上的单跳 / 多跳问题进行回答。在预训练语言模型的基础上,通过将检索到的证据与其相关的全局上下文链接到图中,并将它们组织成候选证据链,实现了竞争性的性能。在两个 ODQA 数据集 OTT-QA 和 NQ 上,我们的模型显著优于之前最先进的方法,在 OTT-QA 上具有 47.3 的精确匹配分数(相对增益 45%)。
Oct, 2022