GraphLLM:提升大型语言模型的图推理能力
我们引入了一种基于图的方法来增强大型语言模型的推理能力,通过分析和验证由 LLMs 生成的解决方案,我们的实验结果表明,我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力,而且在提高这些模型的推理性能方面优于现有的验证程序。
Aug, 2023
通过一种新的框架 GraphText,将图形转化为自然语言,无需图数据训练,能够实现与监督训练图神经网络相媲美甚至超越其性能的图推理,同时为人类和大型语言模型提供了与模型无缝交流的方式,突显了大型语言模型在图机器学习领域尚未探索的巨大潜力。
Oct, 2023
通过对大型语言模型在图形上的应用的详细技术和潜在场景进行系统回顾,我们总结了大型语言模型在纯图、文本丰富图和文本配对图中的优缺点,并讨论了其在真实世界应用中的方法以及开源代码和基准数据集。最后,我们提出了这一快速发展领域的潜在未来研究方向。
Dec, 2023
本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性,并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。
Feb, 2024
本文旨在通过图形推理方法对大型语言模型进行增强,以使其能够完成复杂的图形学习任务,包括基本的图形数据推理和更高级的实际应用推理,我们提出了一个名为 Graph-ToolFormer 的框架,并在各种图形推理数据集和任务上进行了初步的实验研究。
Apr, 2023
大型语言模型 (LLMs) 在有隐式图结构问题上展现了巨大潜力,最近的研究试图通过专门的指导调整增强 LLMs 的图推理能力。然而,对于 LLMs 是否正在学习可推广的图推理技能或仅仅是在合成训练数据中记忆模式,仍未得到很好的探究。因此,我们提出了 NLGift 基准测试,这是 LLM 图推理可推广性的一个评估套件:LLMs 是否能够超越合成训练数据中的语义、数值、结构、推理模式,提高在基于真实世界图的任务上的效用。通过对两个 LLMs 进行四个图推理任务的广泛实验,结果显示虽然对简单模式(语义、数值)的推广相对令人满意,但 LLMs 难以在推理和真实世界模式下进行推广,对于利用底层网络结构的真实世界任务的合成图调整的益处产生了怀疑。我们探索了三种改进 LLM 图推理可推广性的策略,发现对于真实世界任务来说,后训练对齐是最有希望的,但让 LLM 图推理超越模式记忆仍然是一个未解决的研究问题。
Jun, 2024
NLGraph is a benchmark for large language models to solve graph-based problems in natural language, where two instruction-based approaches - Build-a-Graph Prompting and Algorithmic Prompting - are proposed, improving the LLMs' performance by 3.07% to 16.85% across multiple tasks and settings.
May, 2023
本文研究了在十个不同的任务中评估大型语言模型在理解图形数据方面的能力,发现目前模型仍存在理解图结构和执行相关推理任务的局限性,需要进一步的研究以加强其图形处理能力。研究结果为搭建语言模型与图形数据理解之间的桥梁提供了宝贵的见解,为更有效的图挖掘和知识提取铺平了道路。
May, 2023
预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而,在本文中,我们通过图形推理问题测试了 5 种不同的 LLMs(GPT-4、GPT-3.5、Claude-2、Llama-2 和 Palm-2)的图形推理深度。我们设计了 10 个不同的图形遍历问题,每个问题代表了不断增加的复杂性水平。此外,我们分析了模型在不同设置下的性能,例如图形大小的变化以及不同形式的 k-shot 提示。我们通过此基准测试过程突出了 LLMs 的各种限制、偏见和属性,例如与图中每个节点遍历的自由度平均值呈反比关系,k-shot 提示对图形推理任务的整体负面影响以及积极的响应偏差,这使得 LLMs 无法识别有效解的缺失。最后,我们提出了一种专门针对图形遍历任务设计的新提示技术,称为 PathCompare,它在 LLMs 的性能方面与标准提示和 CoT 相比表现出显着增加。
Feb, 2024