大型语言模型的空间推理推进：使用StepGame基准进行深入评估和增强

Jan, 2024

大型语言模型的空间推理推进：使用StepGame基准进行深入评估和增强

Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark

HTML

PDF

Fangjun Li, David C. Hogg, Anthony G. Cohn

TL;DR人工智能在许多领域取得了显著进展，类似ChatGPT这样的大型语言模型因其人类化的文本生成能力而受到了广泛关注。然而，空间推理仍然是这些模型面临的重大挑战。本研究通过改进StepGame基准测试，提供了更准确的数据集用于模型评估，并分析了GPT在修正后的基准测试上的空间推理性能。我们发现GPT在将自然语言文本映射到空间关系方面表现出了优势，但在多跳推理方面存在局限性。我们通过将模板到关系映射与基于逻辑的推理相结合，提供了基准测试的完美解决方案，可以在StepGame上进行定性推理而不会出现任何错误。此外，我们还针对GPT模型在空间推理方面的局限性进行了改进，采用了连续思考和思维树提示策略，在准确性方面取得了显著的改善。我们的研究不仅揭示了模型的不足之处，还提出了增强措施，为具备更强大空间推理能力的人工智能的进展做出了贡献。

Abstract

artificial intelligence (AI) has made remarkable progress across various domains, with large language models like chatgpt gaining substantial attention for their human-like text-generation capabilities. Despite t