GPT4Graph:大型语言模型是否能理解图形结构数据?实证评估和基准测试
在该研究中,我们通过对大型语言模型在图预测任务的性能进行实验,评估它们是否能有效处理图数据并利用拓扑结构提高性能;通过与专门的图神经网络进行比较,我们对大型语言模型在图分析中的优势和局限性提供了见解,并为将它们应用于图分析提供了进一步的探索方向。
Oct, 2023
对四个大型语言模型在图数据分析问题上的能力进行评估,结果表明:1)大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理;2)GPT 模型能够生成逻辑和连贯的结果,在正确性方面优于其他替代方法;3)所有研究中的大型语言模型在结构推理方面面临挑战,零 - shot 推理和少 - shot 提示等技术效果减弱;4)在多答案任务中,GPT 模型常常产生错误答案,引发对可靠性的担忧;5)GPT 模型在输出上表现出较高的自信度,可能影响其纠正错误的能力。值得注意的是,GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。
Aug, 2023
通过对大型语言模型在图形上的应用的详细技术和潜在场景进行系统回顾,我们总结了大型语言模型在纯图、文本丰富图和文本配对图中的优缺点,并讨论了其在真实世界应用中的方法以及开源代码和基准数据集。最后,我们提出了这一快速发展领域的潜在未来研究方向。
Dec, 2023
NLGraph is a benchmark for large language models to solve graph-based problems in natural language, where two instruction-based approaches - Build-a-Graph Prompting and Algorithmic Prompting - are proposed, improving the LLMs' performance by 3.07% to 16.85% across multiple tasks and settings.
May, 2023
本文介绍了 LLM4GraphGen 模型,通过系统性任务设计和广泛的实验探索了大型语言模型在图生成方面的能力,并表明 GPT-4 在图生成任务中展现了初步能力,包括基于规则和分布的生成,同时发现流行的提示方法并不一致地提升性能。此外,LLM 在生成具有特定属性的分子方面展现了潜力,这些发现为基于 LLMs 的图生成模型的设计提供了基础,并提供了有价值的见解和进一步的研究方向。
Mar, 2024
通过将图学习模型与大型语言模型(LLMs)有机地融合,我们介绍了 GraphLLM,一种能够使 LLMs 能够熟练解释和推理图数据的先导性端到端方法,经过多个基础图推理任务的实证评估,结果展示了平均准确率提高 54.44%以及各种图推理任务中 96.45%的显著上下文减少。
Oct, 2023
通过综述最新的最先进的用于图学习的大型语言模型,我们引入了一种新的分类方法,详细阐述了四种独特的设计,并探讨了每种框架的优势和局限性,同时强调了未来研究的潜在方向。
May, 2024
大型语言模型在自然语言处理方面取得了显著的成功,但最近的研究发现它们在处理图形结构数据的推理能力方面存在局限。为了填补这一空白,我们引入了 GraphEval2000,这是第一个包含 40 个图形数据结构问题和 2000 个测试用例的综合性图形数据集。此外,我们引入了基于 GraphEval2000 的评估框架,用于通过编码挑战评估 LLM 的图形推理能力。我们的数据集将测试用例分为四个主要类别和四个次要类别,确保全面评估。我们评估了八个流行的 LLM 在 GraphEval2000 上的表现,发现 LLM 在理解有向图方面比无向图更好。虽然私有 LLM 一直在超越开源模型,但性能差距正在缩小。此外,为了提高我们评估框架的可用性,我们提出了一种基于指令的方法 Structured Symbolic Decomposition(SSD),它旨在提高 LLM 在 GraphEval2000 上的性能。结果显示,SSD 在复杂图形问题上提高了 GPT-3.5、GPT-4 和 GPT-4o 的性能,分别增加了 11.11%、33.37%和 33.37%。
Jun, 2024
KG-GPT 是一个多功能框架,利用大型语言模型(LLMs)进行知识图谱(KGs)相关任务的复杂推理,将句子分割、检索相关图谱组件和推导逻辑结论分为三个步骤。我们通过使用基于 KG 的事实验证和 KGQA 基准来评估 KG-GPT,发现该模型表现出竞争力和稳健性,甚至胜过几个完全监督的模型。因此,我们的工作在统一 LLMs 的结构化和非结构化数据处理方面迈出了重要的一步。
Oct, 2023