通过伪代码提示的图推理与大型语言模型
本文旨在通过图形推理方法对大型语言模型进行增强,以使其能够完成复杂的图形学习任务,包括基本的图形数据推理和更高级的实际应用推理,我们提出了一个名为Graph-ToolFormer的框架,并在各种图形推理数据集和任务上进行了初步的实验研究。
Apr, 2023
NLGraph is a benchmark for large language models to solve graph-based problems in natural language, where two instruction-based approaches - Build-a-Graph Prompting and Algorithmic Prompting - are proposed, improving the LLMs' performance by 3.07% to 16.85% across multiple tasks and settings.
May, 2023
我们引入了一种基于图的方法来增强大型语言模型的推理能力,通过分析和验证由LLMs生成的解决方案,我们的实验结果表明,我们的基于图的验证方法不仅显著提高了LLMs的推理能力,而且在提高这些模型的推理性能方面优于现有的验证程序。
Aug, 2023
通过将图学习模型与大型语言模型(LLMs)有机地融合,我们介绍了GraphLLM,一种能够使LLMs能够熟练解释和推理图数据的先导性端到端方法,经过多个基础图推理任务的实证评估,结果展示了平均准确率提高54.44%以及各种图推理任务中96.45%的显著上下文减少。
Oct, 2023
本研究分析了大规模语言模型在迭代提示下解决图着色问题的能力,发现大规模语言模型在解决图着色问题和验证解答的效果都很差,且无论是来自大规模语言模型还是外部求解器的批评内容对迭代提示的性能影响不大,结果显示现有大规模语言模型的自我批评能力存在问题。
Oct, 2023
预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而,在本文中,我们通过图形推理问题测试了5种不同的LLMs(GPT-4、GPT-3.5、Claude-2、Llama-2和Palm-2)的图形推理深度。我们设计了10个不同的图形遍历问题,每个问题代表了不断增加的复杂性水平。此外,我们分析了模型在不同设置下的性能,例如图形大小的变化以及不同形式的k-shot提示。我们通过此基准测试过程突出了LLMs的各种限制、偏见和属性,例如与图中每个节点遍历的自由度平均值呈反比关系,k-shot提示对图形推理任务的整体负面影响以及积极的响应偏差,这使得LLMs无法识别有效解的缺失。最后,我们提出了一种专门针对图形遍历任务设计的新提示技术,称为PathCompare,它在LLMs的性能方面与标准提示和CoT相比表现出显着增加。
Feb, 2024
大型语言模型 (LLMs) 在有隐式图结构问题上展现了巨大潜力,最近的研究试图通过专门的指导调整增强 LLMs 的图推理能力。然而,对于 LLMs 是否正在学习可推广的图推理技能或仅仅是在合成训练数据中记忆模式,仍未得到很好的探究。因此,我们提出了 NLGift 基准测试,这是 LLM 图推理可推广性的一个评估套件:LLMs 是否能够超越合成训练数据中的语义、数值、结构、推理模式,提高在基于真实世界图的任务上的效用。通过对两个 LLMs 进行四个图推理任务的广泛实验,结果显示虽然对简单模式(语义、数值)的推广相对令人满意,但 LLMs 难以在推理和真实世界模式下进行推广,对于利用底层网络结构的真实世界任务的合成图调整的益处产生了怀疑。我们探索了三种改进 LLM 图推理可推广性的策略,发现对于真实世界任务来说,后训练对齐是最有希望的,但让 LLM 图推理超越模式记忆仍然是一个未解决的研究问题。
Jun, 2024
本研究针对大型语言模型在图推理任务中的表现进行分析,揭示了其在图结构理解方面的缺陷。通过深入探讨图描述翻译、图连通性和最短路径问题,研究结果表明语言模型在这些基本任务中存在显著的性能差异,尤其是在文本描述的图结构理解上表现不佳。
Aug, 2024
本研究针对大型语言模型(LLMs)在基本图算法问题推理中的局限性,提出了一种新的方法——CodeGraph,通过将图问题解决方案编码为代码,来提升推理能力。实验结果表明,CodeGraph在多个图推理任务中有效提升了LLMs的性能,尤其在算术问题上表现优异,展示了更强的可控性和可解释性。
Aug, 2024