在图上评估大型语言模型：性能洞见与比较分析

Aug, 2023

在图上评估大型语言模型：性能洞见与比较分析

Evaluating Large Language Models on Graphs: Performance Insights and Comparative Analysis

Chang Liu, Bo Wu

TL;DR对四个大型语言模型在图数据分析问题上的能力进行评估，结果表明：1）大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理；2）GPT模型能够生成逻辑和连贯的结果，在正确性方面优于其他替代方法；3）所有研究中的大型语言模型在结构推理方面面临挑战，零-shot推理和少-shot提示等技术效果减弱；4）在多答案任务中，GPT模型常常产生错误答案，引发对可靠性的担忧；5）GPT模型在输出上表现出较高的自信度，可能影响其纠正错误的能力。值得注意的是，GPT-4显示了纠正GPT-3.5-turbo和其它版本回答的能力。

Abstract

large language models (LLMs) have garnered considerable interest within both academic and industrial. Yet, the application of LLMs to graph data remains under-explored. In this study, we evaluate the capabilities

发现论文，激发创造

GPT4Graph：大型语言模型是否能理解图形结构数据？实证评估和基准测试

本文研究了在十个不同的任务中评估大型语言模型在理解图形数据方面的能力，发现目前模型仍存在理解图结构和执行相关推理任务的局限性，需要进一步的研究以加强其图形处理能力。研究结果为搭建语言模型与图形数据理解之间的桥梁提供了宝贵的见解，为更有效的图挖掘和知识提取铺平了道路。

May, 2023

超越文本：深入研究大型语言模型对理解图数据的能力

在该研究中，我们通过对大型语言模型在图预测任务的性能进行实验，评估它们是否能有效处理图数据并利用拓扑结构提高性能；通过与专门的图神经网络进行比较，我们对大型语言模型在图分析中的优势和局限性提供了见解，并为将它们应用于图分析提供了进一步的探索方向。

Oct, 2023

将图形与大型语言模型融合：方法与前景

大型语言模型与图结构化数据的集成可以通过增强现有图算法和作为预测模型来提升性能，同时结合图结构可以在各种复杂任务中显著改善大型语言模型的表现。

Oct, 2023

GraphLLM：提升大型语言模型的图推理能力

通过将图学习模型与大型语言模型（LLMs）有机地融合，我们介绍了GraphLLM，一种能够使LLMs能够熟练解释和推理图数据的先导性端到端方法，经过多个基础图推理任务的实证评估，结果展示了平均准确率提高54.44％以及各种图推理任务中96.45％的显著上下文减少。

Oct, 2023

图上的大型语言模型：综合调查

通过对大型语言模型在图形上的应用的详细技术和潜在场景进行系统回顾，我们总结了大型语言模型在纯图、文本丰富图和文本配对图中的优缺点，并讨论了其在真实世界应用中的方法以及开源代码和基准数据集。最后，我们提出了这一快速发展领域的潜在未来研究方向。

Dec, 2023

图式推理：基于图形的增强大型语言模型

使用Graph-CoT框架，通过对图进行迭代推理，将大型语言模型（LLMs）与图相结合，从而提高知识密集型任务中的性能。

Apr, 2024

GraphEval2000: 在图数据集上评估和改进大型语言模型

大型语言模型在自然语言处理方面取得了显著的成功，但最近的研究发现它们在处理图形结构数据的推理能力方面存在局限。为了填补这一空白，我们引入了GraphEval2000，这是第一个包含40个图形数据结构问题和2000个测试用例的综合性图形数据集。此外，我们引入了基于GraphEval2000的评估框架，用于通过编码挑战评估LLM的图形推理能力。我们的数据集将测试用例分为四个主要类别和四个次要类别，确保全面评估。我们评估了八个流行的LLM在GraphEval2000上的表现，发现LLM在理解有向图方面比无向图更好。虽然私有LLM一直在超越开源模型，但性能差距正在缩小。此外，为了提高我们评估框架的可用性，我们提出了一种基于指令的方法Structured Symbolic Decomposition（SSD），它旨在提高LLM在GraphEval2000上的性能。结果显示，SSD 在复杂图形问题上提高了GPT-3.5、GPT-4和GPT-4o的性能，分别增加了11.11％、33.37％和33.37％。

Jun, 2024

研究大型语言模型在图上的指令调优

本研究针对大型语言模型在图相关任务中的应用，填补了现有研究的空白。我们提出了一种新的数据集，包含79个图任务，并发现JSON格式在图表示上对语言模型的理解效果最佳。这一发现为如何有效使用大型语言模型处理复杂图结构提供了实证依据，具有重要的应用潜力。

Aug, 2024

重新审视大型语言模型的图推理能力：翻译、连通性和最短路径案例研究

本研究针对大型语言模型在图推理任务中的表现进行分析，揭示了其在图结构理解方面的缺陷。通过深入探讨图描述翻译、图连通性和最短路径问题，研究结果表明语言模型在这些基本任务中存在显著的性能差异，尤其是在文本描述的图结构理解上表现不佳。

Aug, 2024

GUNDAM：使大型语言模型与图理解对齐

本研究解决了现有大型语言模型在处理图结构数据时，主要关注文本特征而忽视图结构的问题。通过引入图理解的自然语言驱动分析模型（GUNDAM），增强了大型语言模型对图数据结构的理解，从而能更好地执行复杂的推理任务。实验结果显示，GUNDAM在图推理基准测试中优于现有最先进的方法，揭示了影响推理能力的关键因素。

Sep, 2024