Jun, 2024

GraphEval2000: 在图数据集上评估和改进大型语言模型

TL;DR大型语言模型在自然语言处理方面取得了显著的成功,但最近的研究发现它们在处理图形结构数据的推理能力方面存在局限。为了填补这一空白,我们引入了GraphEval2000,这是第一个包含40个图形数据结构问题和2000个测试用例的综合性图形数据集。此外,我们引入了基于GraphEval2000的评估框架,用于通过编码挑战评估LLM的图形推理能力。我们的数据集将测试用例分为四个主要类别和四个次要类别,确保全面评估。我们评估了八个流行的LLM在GraphEval2000上的表现,发现LLM在理解有向图方面比无向图更好。虽然私有LLM一直在超越开源模型,但性能差距正在缩小。此外,为了提高我们评估框架的可用性,我们提出了一种基于指令的方法Structured Symbolic Decomposition(SSD),它旨在提高LLM在GraphEval2000上的性能。结果显示,SSD 在复杂图形问题上提高了GPT-3.5、GPT-4和GPT-4o的性能,分别增加了11.11%、33.37%和33.37%。