LLM 图推理能否超越模式记忆泛化？

Jun, 2024

LLM 图推理能否超越模式记忆泛化？

Can LLM Graph Reasoning Generalize beyond Pattern Memorization?

Yizhuo Zhang, Heng Wang, Shangbin Feng, Zhaoxuan Tan, Xiaochuang Han...

TL;DR大型语言模型 (LLMs) 在有隐式图结构问题上展现了巨大潜力，最近的研究试图通过专门的指导调整增强 LLMs 的图推理能力。然而，对于 LLMs 是否正在学习可推广的图推理技能或仅仅是在合成训练数据中记忆模式，仍未得到很好的探究。因此，我们提出了 NLGift 基准测试，这是 LLM 图推理可推广性的一个评估套件：LLMs 是否能够超越合成训练数据中的语义、数值、结构、推理模式，提高在基于真实世界图的任务上的效用。通过对两个 LLMs 进行四个图推理任务的广泛实验，结果显示虽然对简单模式（语义、数值）的推广相对令人满意，但 LLMs 难以在推理和真实世界模式下进行推广，对于利用底层网络结构的真实世界任务的合成图调整的益处产生了怀疑。我们探索了三种改进 LLM 图推理可推广性的策略，发现对于真实世界任务来说，后训练对齐是最有希望的，但让 LLM 图推理超越模式记忆仍然是一个未解决的研究问题。

Abstract

large language models (LLMs) demonstrate great potential for problems with implicit graphical structures, while recent works seek to enhance the graph reasoning capabilities of LLMs through specialized instruction tuning. The resulting 'graph LLMs' are evaluated with in-distribution se

large language models graph reasoning generalization synthetic training data real-world tasks

发现论文，激发创造

GraphLLM：提升大型语言模型的图推理能力

通过将图学习模型与大型语言模型（LLMs）有机地融合，我们介绍了 GraphLLM，一种能够使 LLMs 能够熟练解释和推理图数据的先导性端到端方法，经过多个基础图推理任务的实证评估，结果展示了平均准确率提高 54.44％以及各种图推理任务中 96.45％的显著上下文减少。

Oct, 2023

语言模型是否能够用自然语言解决图问题？

NLGraph is a benchmark for large language models to solve graph-based problems in natural language, where two instruction-based approaches - Build-a-Graph Prompting and Algorithmic Prompting - are proposed, improving the LLMs' performance by 3.07% to 16.85% across multiple tasks and settings.

May, 2023

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

大型语言模型时代的图机器学习

在 LLMs 时代，通过综述文章，我们首先回顾了图机器学习的最新发展，然后探讨了 LLMs 如何提高图特征的质量，减少对标记数据的依赖，并解决图的异质性和分布外泛化等挑战。此外，我们研究了图如何增强 LLMs，并突出它们在 LLMs 的预训练和推理中的能力。最后，我们探讨了这个有前景的领域的各种应用和潜在的未来方向。

Apr, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

大型语言模型对图形回忆的微观结构和准确性

图数据、图回忆、LLMs、局部结构偏见以及领域依赖是这篇论文的五个关键词，论文主要研究了 LLMs 在图回忆任务中的准确性、偏见的局部结构模式以及其对其他图推理任务的影响。发现 LLMs 在图回忆任务中表现普遍不佳，且倾向于偏爱三角形和交替 2 路径，同时更高级的 LLMs 对真实世界图的回忆准确性取决于图所属领域，最佳回忆效果出现在与原始领域语言风格一致的图上。

Feb, 2024

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由 LLMs 生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024

有意义的学习：通过通用事实指导提升大型语言模型的抽象推理能力

我们设计了一个初步的研究，以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示，我们的方法不仅提高了大型语言模型的一般推理性能，而且在抽象推理能力方面取得了可观的进展，从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。

Mar, 2024

超越文本：深入研究大型语言模型对理解图数据的能力

在该研究中，我们通过对大型语言模型在图预测任务的性能进行实验，评估它们是否能有效处理图数据并利用拓扑结构提高性能；通过与专门的图神经网络进行比较，我们对大型语言模型在图分析中的优势和局限性提供了见解，并为将它们应用于图分析提供了进一步的探索方向。

Oct, 2023