Jun, 2024

GraphEval2000: 在图数据集上评估和改进大型语言模型

TL;DR大型语言模型在自然语言处理方面取得了显著的成功,但最近的研究发现它们在处理图形结构数据的推理能力方面存在局限。为了填补这一空白,我们引入了 GraphEval2000,这是第一个包含 40 个图形数据结构问题和 2000 个测试用例的综合性图形数据集。此外,我们引入了基于 GraphEval2000 的评估框架,用于通过编码挑战评估 LLM 的图形推理能力。我们的数据集将测试用例分为四个主要类别和四个次要类别,确保全面评估。我们评估了八个流行的 LLM 在 GraphEval2000 上的表现,发现 LLM 在理解有向图方面比无向图更好。虽然私有 LLM 一直在超越开源模型,但性能差距正在缩小。此外,为了提高我们评估框架的可用性,我们提出了一种基于指令的方法 Structured Symbolic Decomposition(SSD),它旨在提高 LLM 在 GraphEval2000 上的性能。结果显示,SSD 在复杂图形问题上提高了 GPT-3.5、GPT-4 和 GPT-4o 的性能,分别增加了 11.11%、33.37%和 33.37%。