重新审视大型语言模型的图推理能力:翻译、连通性和最短路径案例研究
对四个大型语言模型在图数据分析问题上的能力进行评估,结果表明:1)大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理;2)GPT模型能够生成逻辑和连贯的结果,在正确性方面优于其他替代方法;3)所有研究中的大型语言模型在结构推理方面面临挑战,零-shot推理和少-shot提示等技术效果减弱;4)在多答案任务中,GPT模型常常产生错误答案,引发对可靠性的担忧;5)GPT模型在输出上表现出较高的自信度,可能影响其纠正错误的能力。值得注意的是,GPT-4显示了纠正GPT-3.5-turbo和其它版本回答的能力。
Aug, 2023
本论文提出了一种理论上基于知识图谱的新方法——图推理(RoG),该方法通过将大型语言模型(LLMs)与知识图谱(KGs)相结合,实现了忠实和可解释的推理,实验结果表明RoG在KG推理任务上取得了最先进的性能。
Oct, 2023
通过将图学习模型与大型语言模型(LLMs)有机地融合,我们介绍了GraphLLM,一种能够使LLMs能够熟练解释和推理图数据的先导性端到端方法,经过多个基础图推理任务的实证评估,结果展示了平均准确率提高54.44%以及各种图推理任务中96.45%的显著上下文减少。
Oct, 2023
通过对大型语言模型在图形上的应用的详细技术和潜在场景进行系统回顾,我们总结了大型语言模型在纯图、文本丰富图和文本配对图中的优缺点,并讨论了其在真实世界应用中的方法以及开源代码和基准数据集。最后,我们提出了这一快速发展领域的潜在未来研究方向。
Dec, 2023
预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而,在本文中,我们通过图形推理问题测试了5种不同的LLMs(GPT-4、GPT-3.5、Claude-2、Llama-2和Palm-2)的图形推理深度。我们设计了10个不同的图形遍历问题,每个问题代表了不断增加的复杂性水平。此外,我们分析了模型在不同设置下的性能,例如图形大小的变化以及不同形式的k-shot提示。我们通过此基准测试过程突出了LLMs的各种限制、偏见和属性,例如与图中每个节点遍历的自由度平均值呈反比关系,k-shot提示对图形推理任务的整体负面影响以及积极的响应偏差,这使得LLMs无法识别有效解的缺失。最后,我们提出了一种专门针对图形遍历任务设计的新提示技术,称为PathCompare,它在LLMs的性能方面与标准提示和CoT相比表现出显着增加。
Feb, 2024
大型语言模型 (LLMs) 在有隐式图结构问题上展现了巨大潜力,最近的研究试图通过专门的指导调整增强 LLMs 的图推理能力。然而,对于 LLMs 是否正在学习可推广的图推理技能或仅仅是在合成训练数据中记忆模式,仍未得到很好的探究。因此,我们提出了 NLGift 基准测试,这是 LLM 图推理可推广性的一个评估套件:LLMs 是否能够超越合成训练数据中的语义、数值、结构、推理模式,提高在基于真实世界图的任务上的效用。通过对两个 LLMs 进行四个图推理任务的广泛实验,结果显示虽然对简单模式(语义、数值)的推广相对令人满意,但 LLMs 难以在推理和真实世界模式下进行推广,对于利用底层网络结构的真实世界任务的合成图调整的益处产生了怀疑。我们探索了三种改进 LLM 图推理可推广性的策略,发现对于真实世界任务来说,后训练对齐是最有希望的,但让 LLM 图推理超越模式记忆仍然是一个未解决的研究问题。
Jun, 2024
本研究解决了大型语言模型在图相关任务中的推理能力不足的问题。我们提出了通过伪代码指令提示来增强模型性能的新方法。实验结果表明,该方法普遍提升了各类大型语言模型在解决图问题时的表现。
Sep, 2024
本研究解决了现有大型语言模型在处理图结构数据时,主要关注文本特征而忽视图结构的问题。通过引入图理解的自然语言驱动分析模型(GUNDAM),增强了大型语言模型对图数据结构的理解,从而能更好地执行复杂的推理任务。实验结果显示,GUNDAM在图推理基准测试中优于现有最先进的方法,揭示了影响推理能力的关键因素。
Sep, 2024