Feb, 2024

探索大型语言模型中图推理的局限性

TL;DR预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而,在本文中,我们通过图形推理问题测试了 5 种不同的 LLMs(GPT-4、GPT-3.5、Claude-2、Llama-2 和 Palm-2)的图形推理深度。我们设计了 10 个不同的图形遍历问题,每个问题代表了不断增加的复杂性水平。此外,我们分析了模型在不同设置下的性能,例如图形大小的变化以及不同形式的 k-shot 提示。我们通过此基准测试过程突出了 LLMs 的各种限制、偏见和属性,例如与图中每个节点遍历的自由度平均值呈反比关系,k-shot 提示对图形推理任务的整体负面影响以及积极的响应偏差,这使得 LLMs 无法识别有效解的缺失。最后,我们提出了一种专门针对图形遍历任务设计的新提示技术,称为 PathCompare,它在 LLMs 的性能方面与标准提示和 CoT 相比表现出显着增加。