迈向因果 GPT:基于多智能体方法的忠实知识推理,通过提升 LLMs 中的因果一致性
本研究旨在通过知识图谱改进大型语言模型 (LLM) 的推理能力,以回答复杂问题。我们提出了一种自主的基于 LLM 的智能体框架 KG-Agent,它允许一个小型 LLM 主动作出决策,直到完成对知识图谱的推理过程。在 KG-Agent 中,我们整合了 LLM、多功能工具箱、基于知识图谱的执行器和知识存储器,并开发了一个迭代机制,自主选择工具,然后更新用于对知识图谱进行推理的记忆。为了保证有效性,我们利用程序语言对知识图谱上的多跳推理过程进行了规范,并合成了基于代码的指令数据集,以对基础 LLM 进行微调。大量实验证明,仅使用 10K 个样本对 LLaMA-7B 进行微调就能在领域内外的数据集上超过使用更大的 LLM 或更多数据的现有方法。我们的代码和数据将公开发布。
Feb, 2024
大型语言模型(LLMs)存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题,确定了集中式推理和分布式推理两种推理范式,并发现它们与忠实性的关系。随后,我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明,当 LLM 预测答案时,它可以从上下文中回忆起 CoT 中缺失的正确信息,导致不忠实的问题。最后,我们提出了推理桥接方法来缓解这个问题,其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。
May, 2024
利用大型语言模型 (LLMs) 和知识图谱 (KG) 的协作训练方法,本研究在知识图谱的指导下,通过迭代探索和选择性地检索任务相关的知识子图来支持推理,使得 LLMs 能更可靠地进行基于知识的推理,并同时明确阐述推理过程,实验结果表明本方法在多个数据集上显著改进,尤其在 QALD10 数据集上相对于最佳基线和最先进的方法提高了超过 10%,为今后的知识图谱和大型语言模型融合研究提供了有价值的参考,提升 LLMs 在解决复杂问题上的能力。
Feb, 2024
本文探讨了大型语言模型(LLMs)的因果能力,证明它们在因果推理方面具有优越性能和独特的知识来源。同时,我们提供了技术来解释它们的鲁棒性,并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此,LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。
Apr, 2023
融合语言模型和知识图谱已经变成通识问题回答研究中的常见做法,但在这些模型中实现忠实的思维链解释仍然是一个开放问题。本研究的两个主要贡献是:(1) 提出并验证了两个定量指标 - 图一致性和图忠实度 - 用于衡量基于知识图谱的解释的忠实性。(2) 引入了一种新颖的训练方法 Consistent GNN (CGNN),通过增加一项一致性正则化项来提高解释的忠实性。分析结果表明,知识图谱的预测往往与原始模型的预测偏离。所提出的 CGNN 方法提高了一致性和忠实度,展示了它产生更忠实解释的潜力。我们的工作强调明确评估的重要性,并为开发基于图的忠实解释结构提供了前进的方向。
Oct, 2023
评估大型语言模型在干预作用下准确更新其对数据生成过程的知识的能力,以及对因果推断中不同因果图和变量类型的干预性推理的研究。研究结果表明,虽然 GPT-4 模型在预测干预效果方面表现出有希望的准确性,但它们对提示中的干扰因素仍然敏感。
Apr, 2024
本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明,ChatGPT 在因果推理方面存在严重的幻觉,主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外,在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响,针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系,对隐式的因果关系处理能力相对较差,对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。
May, 2023
大型语言模型(LLMs)在生成连贯思路解释时展现出强大的推理能力,然而,之前的研究仅关注于回答的准确性,忽略了生成的连贯思路的正确性。本文通过利用知识图谱(KGs)深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式,用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明,LLMs 具有足够的知识进行推理,然而,LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异,表明它们经常通过错误的推理方法得出正确的答案。
Feb, 2024
在问答领域中,将大型语言模型与外部数据库结合已经取得了巨大的成功。然而,这些方法在提供复杂问答任务所需的高级推理方面常常效果不佳。为了解决这些问题,我们改进了一种称为 “知识图谱提示” 的新方法,该方法结合了知识图谱和基于大型语言模型的代理以提高推理和搜索准确性。然而,原始的知识图谱提示框架需要在大型数据集上进行昂贵的微调,并且仍然存在着大型语言模型幻觉的问题。因此,我们提出了一种注入推理能力的大型语言模型代理来增强该框架。这种代理模仿人类的好奇心来提问后续问题,以更高效地导航搜索。这种简单的改进显著提升了大型语言模型在问答任务中的性能,而无需承担初始 “知识图谱提示” 框架的高成本和延迟。我们的最终目标是进一步发展这种方法,在问答领域提供更准确、更快速、更具成本效益的解决方案。
Apr, 2024