Jun, 2024

LLM 图推理能否超越模式记忆泛化?

TL;DR大型语言模型 (LLMs) 在有隐式图结构问题上展现了巨大潜力,最近的研究试图通过专门的指导调整增强 LLMs 的图推理能力。然而,对于 LLMs 是否正在学习可推广的图推理技能或仅仅是在合成训练数据中记忆模式,仍未得到很好的探究。因此,我们提出了 NLGift 基准测试,这是 LLM 图推理可推广性的一个评估套件:LLMs 是否能够超越合成训练数据中的语义、数值、结构、推理模式,提高在基于真实世界图的任务上的效用。通过对两个 LLMs 进行四个图推理任务的广泛实验,结果显示虽然对简单模式(语义、数值)的推广相对令人满意,但 LLMs 难以在推理和真实世界模式下进行推广,对于利用底层网络结构的真实世界任务的合成图调整的益处产生了怀疑。我们探索了三种改进 LLM 图推理可推广性的策略,发现对于真实世界任务来说,后训练对齐是最有希望的,但让 LLM 图推理超越模式记忆仍然是一个未解决的研究问题。