评估大型语言模型的空间理解能力

Oct, 2023

评估大型语言模型的空间理解能力

Evaluating Spatial Understanding of Large Language Models

Yutaro Yamada, Yihan Bao, Andrew K. Lampinen, Jungo Kasai, Ilker Yildirim

TL;DR大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索LLMs对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了LLMs（特别是GPT-3.5-turbo，GPT-4和Llama2系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了LLMs在不同空间结构（包括正方形、六边形和三角形网格、环和树形结构）中的表现变异性。我们还发现，类似于人类，LLMs利用对象名称作为地标来维护空间地图。最后，在广泛的错误分析中，我们发现LLMs的错误反映了空间和非空间因素。这些发现表明，LLMs似乎能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

Abstract

large language models (LLMs) show remarkable capabilities across a variety of tasks. Despite the models only seeing text in training, several recent studies suggest that llm representations implicitly capture asp

发现论文，激发创造

评估大型语言模型在几何和空间关系的文本描述中的有效性

研究使用大型语言模型（LLMs）对几何形状及其空间关系进行表示的能力，并使用GPT-2和BERT等LLMs对几何形状的文本（WKT）格式进行编码，然后将其嵌入分类器和回归器中评估LLMs生成的嵌入表示对几何属性的效果。实验证明，尽管LLMs生成的嵌入可以保留几何类型并捕捉一些空间关系（准确率高达73%），但在估计数值和检索空间相关对象方面仍存在挑战。此研究强调了在捕捉底层地理空间数据的细微差别和复杂性以及整合领域知识以支持各种基于GeoAI应用的需要改进的重要性。

Jul, 2023

语言模型表示空间和时间

使用Llama-2模型，我们通过分析三个空间数据集（全球、美国、纽约地点）和三个时间数据集（历史人物、艺术品、新闻标题）中学到的表示来找到LLMs学习的证据，发现LLMs在多个尺度上学习了空间和时间的线性表示，表征对提示的变化具有鲁棒性，并且跨不同实体类型（例如城市和地标）统一。此外，我们还确定了可靠地编码空间和时间坐标的个别“空间神经元”和“时间神经元”。我们的分析证明了现代LLMs获取了关于空间和时间等基本维度的结构化知识，支持它们不仅仅学习了表面统计数据，而是字面上的世界模型。

Oct, 2023

大型语言模型具备地理空间知识吗？

该研究通过探测具备预训练能力的大型语言模型对地理数据的理解程度和与此相关的促进地理空间决策的能力，通过三个实验验证结论，表明合成地理空间知识需要更大规模和更复杂的语言模型，并且对于处理地理空间信息，大型语言模型的潜力和局限性值得研究。

Oct, 2023

大型语言模型中判断空间关系的失真：自然语言地理数据的黎明？

我们提出了一个评估大型语言模型（LLM）判断地理位置之间的斜对角方向能力的基准，并将其应用于三个知名的LLM：GPT-3.5，GPT-4和Llama-2。在测试中，GPT-4表现出优越的性能，准确率为55.3%，其次是GPT-3.5的47.3%，Llama-2的44.7%。尽管这些模型在可能存在层次性偏差的任务上的准确性较低，但它们大多数情况下能够识别最近的基准方向，显示出类似人类的错误理解，我们讨论了直接用代表地理关系的文本数据来改进LLM的空间推理能力的潜力。

Jan, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

大型语言模型能否为空间推理任务创造新的知识？

大型语言模型（LLMs）具有生成新信息的潜力，这对于研究和创新来说是一个潜在的重大突破。本文观察到LLMs能够对具有空间维度的问题进行复杂推理，这表明现有的LLMs能够达到相当程度的理解能力，支持其具有重要的新现象产生特性。特别地，Claude 3在这方面表现良好。

May, 2024

语言模型中的空间推理评估重新构架: 定性推理的现实世界模拟基准

我们提出了一个新的基准评估语言模型中的定性空间推理，该基准建立在逼真的三维仿真数据上，提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性，发现它们在多跳空间推理和解释混合视角描述方面存在困难，并指出了未来改进的方向。

May, 2024

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉-语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

PLUGH：用于大型语言模型空间理解和推理的基准

本研究提出了PLUGH基准，旨在评估大型语言模型在空间理解和推理方面的能力。通过针对48款游戏的125个输入文本和61种不同空间图的任务，研究发现尽管某些商业模型表现优异，开源模型也能够接近同等水平，但仍存在显著改进空间。研究还识别了LLM失败的典型原因，并探讨了应对策略。

Aug, 2024

视觉-语言模型如何表示空间？在模糊性下评估空间参考框架

本研究针对视觉-语言模型(VLMs)在空间表达中存在的模糊性问题进行探讨，提出了一种新的评估协议COMFORT，用于系统性评估VLMs的空间推理能力。研究发现，尽管这些模型在某些情况下与英语约定相符，但在鲁棒性、灵活性以及对跨语言测试中的文化特定约定的遵守方面存在显著不足，呼吁对空间推理中的模糊性和跨文化差异给予更多关注。

Oct, 2024