PLUGH：用于大型语言模型空间理解和推理的基准

Aug, 2024

PLUGH：用于大型语言模型空间理解和推理的基准

PLUGH: A Benchmark for Spatial Understanding and Reasoning in Large Language Models

Alexey Tikhonov

TL;DR本研究提出了PLUGH基准，旨在评估大型语言模型在空间理解和推理方面的能力。通过针对48款游戏的125个输入文本和61种不同空间图的任务，研究发现尽管某些商业模型表现优异，开源模型也能够接近同等水平，但仍存在显著改进空间。研究还识别了LLM失败的典型原因，并探讨了应对策略。

Abstract

We present PLUGH (https://www.urbandictionary.com/define.php?term=plugh), a modern Benchmark that currently consists of 5 tasks, each with 125 input texts extracted from 48 different games and representing 61 different (non-isomorphic) spatial graphs to assess the abilities of

发现论文，激发创造

评估大型语言模型的空间理解能力

大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索LLMs对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了LLMs（特别是GPT-3.5-turbo，GPT-4和Llama2系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了LLMs在不同空间结构（包括正方形、六边形和三角形网格、环和树形结构）中的表现变异性。我们还发现，类似于人类，LLMs利用对象名称作为地标来维护空间地图。最后，在广泛的错误分析中，我们发现LLMs的错误反映了空间和非空间因素。这些发现表明，LLMs似乎能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

Oct, 2023

大型语言模型的空间推理推进：使用StepGame基准进行深入评估和增强

人工智能在许多领域取得了显著进展，类似ChatGPT这样的大型语言模型因其人类化的文本生成能力而受到了广泛关注。然而，空间推理仍然是这些模型面临的重大挑战。本研究通过改进StepGame基准测试，提供了更准确的数据集用于模型评估，并分析了GPT在修正后的基准测试上的空间推理性能。我们发现GPT在将自然语言文本映射到空间关系方面表现出了优势，但在多跳推理方面存在局限性。我们通过将模板到关系映射与基于逻辑的推理相结合，提供了基准测试的完美解决方案，可以在StepGame上进行定性推理而不会出现任何错误。此外，我们还针对GPT模型在空间推理方面的局限性进行了改进，采用了连续思考和思维树提示策略，在准确性方面取得了显著的改善。我们的研究不仅揭示了模型的不足之处，还提出了增强措施，为具备更强大空间推理能力的人工智能的进展做出了贡献。

Jan, 2024

大型语言模型能否为空间推理任务创造新的知识？

大型语言模型（LLMs）具有生成新信息的潜力，这对于研究和创新来说是一个潜在的重大突破。本文观察到LLMs能够对具有空间维度的问题进行复杂推理，这表明现有的LLMs能够达到相当程度的理解能力，支持其具有重要的新现象产生特性。特别地，Claude 3在这方面表现良好。

May, 2024

语言模型中的空间推理评估重新构架: 定性推理的现实世界模拟基准

我们提出了一个新的基准评估语言模型中的定性空间推理，该基准建立在逼真的三维仿真数据上，提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性，发现它们在多跳空间推理和解释混合视角描述方面存在困难，并指出了未来改进的方向。

May, 2024

SpaRC和SpaRP：用于理解大型语言模型的空间推理能力的空间推理特征描述和路径生成

当前最先进的大型语言模型（LLMs）在空间推理方面性能较差，但随着模型规模的扩大，在空间推理能力上有了显著提升，Finetuning大或小型语言模型可以显著提高它们的F1分数，专有的LLMs在拓扑空间理解和推理方面明显优于开源模型。

Jun, 2024

CityGPT：大型语言模型赋能城市空间认知

CityGPT是一种用于增强大型语言模型在理解城市空间和解决相关城市任务方面能力的系统框架，通过在模型中构建城市规模的世界模型，并使用包含城市知识的多样化指令调整数据集CityInstruction来进行模型微调，实现对城市空间的理解和空间推理能力的有效增强。

Jun, 2024

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉-语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

在空间任务上评估大型语言模型：多任务基准研究

本研究针对当前大型语言模型在空间任务上的评估缺乏进行深入探讨，提出了一套新颖的多任务空间评估数据集，系统比较多种模型的性能。研究发现，gpt-4o在总体准确度上表现最佳，而不同的提示策略对模型在特定任务的表现有显著影响，如COT策略在路径规划任务中将gpt-4o的准确率提升至87.5%。

Aug, 2024

评估大型语言模型在空间任务上的表现：一项多任务基准研究

本研究解决了大型语言模型在空间任务上评估不足的问题，介绍了一种新的多任务空间评估数据集，系统地探索和比较多种先进模型的表现。研究发现，gpt-4o在总体准确性上表现最佳，平均准确率为71.3%，而特定提示策略显著提高了模型在某些任务中的表现。

Aug, 2024

在空间任务上评估大型语言模型：多任务基准研究

本研究填补了大型语言模型在空间任务表现评估的空白，通过引入一个新的多任务空间评估数据集，系统性探讨和比较了多种先进模型在空间任务上的表现。研究发现，gpt-4o在整体准确率上表现最佳，同时特定的提示策略显著提升了模型在特定任务中的表现。

Aug, 2024