AAAIJan, 2024

大型语言模型的空间推理推进:使用 StepGame 基准进行深入评估和增强

TL;DR人工智能在许多领域取得了显著进展,类似 ChatGPT 这样的大型语言模型因其人类化的文本生成能力而受到了广泛关注。然而,空间推理仍然是这些模型面临的重大挑战。本研究通过改进 StepGame 基准测试,提供了更准确的数据集用于模型评估,并分析了 GPT 在修正后的基准测试上的空间推理性能。我们发现 GPT 在将自然语言文本映射到空间关系方面表现出了优势,但在多跳推理方面存在局限性。我们通过将模板到关系映射与基于逻辑的推理相结合,提供了基准测试的完美解决方案,可以在 StepGame 上进行定性推理而不会出现任何错误。此外,我们还针对 GPT 模型在空间推理方面的局限性进行了改进,采用了连续思考和思维树提示策略,在准确性方面取得了显著的改善。我们的研究不仅揭示了模型的不足之处,还提出了增强措施,为具备更强大空间推理能力的人工智能的进展做出了贡献。