探索大型语言模型中图推理的局限性

Feb, 2024

探索大型语言模型中图推理的局限性

Exploring the Limitations of Graph Reasoning in Large Language Models

Palaash Agrawal, Shavak Vasania, Cheston Tan

TL;DR预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而，在本文中，我们通过图形推理问题测试了 5 种不同的 LLMs（GPT-4、GPT-3.5、Claude-2、Llama-2 和 Palm-2）的图形推理深度。我们设计了 10 个不同的图形遍历问题，每个问题代表了不断增加的复杂性水平。此外，我们分析了模型在不同设置下的性能，例如图形大小的变化以及不同形式的 k-shot 提示。我们通过此基准测试过程突出了 LLMs 的各种限制、偏见和属性，例如与图中每个节点遍历的自由度平均值呈反比关系，k-shot 提示对图形推理任务的整体负面影响以及积极的响应偏差，这使得 LLMs 无法识别有效解的缺失。最后，我们提出了一种专门针对图形遍历任务设计的新提示技术，称为 PathCompare，它在 LLMs 的性能方面与标准提示和 CoT 相比表现出显着增加。

Abstract

pretrained large language models have demonstrated various types of reasoning capabilities through language-based prompts alone. However, in this paper, we test the depth of graph reasoning for 5 different

pretrained large language models graph reasoning llms graph traversal prompting technique

发现论文，激发创造

GraphLLM：提升大型语言模型的图推理能力

通过将图学习模型与大型语言模型（LLMs）有机地融合，我们介绍了 GraphLLM，一种能够使 LLMs 能够熟练解释和推理图数据的先导性端到端方法，经过多个基础图推理任务的实证评估，结果展示了平均准确率提高 54.44％以及各种图推理任务中 96.45％的显著上下文减少。

Oct, 2023

高效知识路径的推理：知识图引导领域问题回答的大型语言模型

通过在知识图谱（KG）上选择推理路径并结合思维链（CoT）和 PageRank 的子图检索方法，本文整合和优化了一个基于大型语言模型（LLM）的管道，可以减少对 LLM 的依赖。最终，RoK 证明了使用较少的 LLM 调用可以达到相同的结果。

Apr, 2024

关于大型语言模型在推理和规划任务上的自验证局限性

通过在三个领域（24 点游戏，图着色，STRIPS 规划）对 GPT-4 的表现进行实证研究，我们观察到自我评估导致性能显著下降，而外部验证则带来显著性能提升；然而，评估内容对系统性能并不重要，事实上，简单地使用一个可信的验证器重新提问可以保持大部分优势。

Feb, 2024

语言模型是否能够用自然语言解决图问题？

NLGraph is a benchmark for large language models to solve graph-based problems in natural language, where two instruction-based approaches - Build-a-Graph Prompting and Algorithmic Prompting - are proposed, improving the LLMs' performance by 3.07% to 16.85% across multiple tasks and settings.

May, 2023

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由 LLMs 生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

图文融合：图推理在文本空间中

通过一种新的框架 GraphText，将图形转化为自然语言，无需图数据训练，能够实现与监督训练图神经网络相媲美甚至超越其性能的图推理，同时为人类和大型语言模型提供了与模型无缝交流的方式，突显了大型语言模型在图机器学习领域尚未探索的巨大潜力。

Oct, 2023

在图上评估大型语言模型：性能洞见与比较分析

对四个大型语言模型在图数据分析问题上的能力进行评估，结果表明：1）大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理；2）GPT 模型能够生成逻辑和连贯的结果，在正确性方面优于其他替代方法；3）所有研究中的大型语言模型在结构推理方面面临挑战，零 - shot 推理和少 - shot 提示等技术效果减弱；4）在多答案任务中，GPT 模型常常产生错误答案，引发对可靠性的担忧；5）GPT 模型在输出上表现出较高的自信度，可能影响其纠正错误的能力。值得注意的是，GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。

Aug, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

Graph-ToolFormer：通过 ChatGPT 增强 Prompt 为 LLMs 赋予图推理能力

本文旨在通过图形推理方法对大型语言模型进行增强，以使其能够完成复杂的图形学习任务，包括基本的图形数据推理和更高级的实际应用推理，我们提出了一个名为 Graph-ToolFormer 的框架，并在各种图形推理数据集和任务上进行了初步的实验研究。

Apr, 2023