大型语言模型能否为空间推理任务创造新的知识？

May, 2024

大型语言模型能否为空间推理任务创造新的知识？

Can Large Language Models Create New Knowledge for Spatial Reasoning Tasks?

Thomas Greatrix, Roger Whitaker, Liam Turner, Walter Colombo

TL;DR大型语言模型（LLMs）具有生成新信息的潜力，这对于研究和创新来说是一个潜在的重大突破。本文观察到LLMs能够对具有空间维度的问题进行复杂推理，这表明现有的LLMs能够达到相当程度的理解能力，支持其具有重要的新现象产生特性。特别地，Claude 3在这方面表现良好。

Abstract

The potential for large language models (llms) to generate new information offers a potential step change for research and →

发现论文，激发创造

大型语言模型能成为良好的路径规划器吗？空间-时间推理的基准和研究调查

大型语言模型在路径规划和空间推理方面取得了显著的成功，少样本的GPT-4通过不同的提示方法在空间推理方面表现出了潜力，而微调的LLMs则在小环境或有障碍物的情况下难以推广。

Oct, 2023

大型语言模型具备地理空间知识吗？

该研究通过探测具备预训练能力的大型语言模型对地理数据的理解程度和与此相关的促进地理空间决策的能力，通过三个实验验证结论，表明合成地理空间知识需要更大规模和更复杂的语言模型，并且对于处理地理空间信息，大型语言模型的潜力和局限性值得研究。

Oct, 2023

评估大型语言模型的空间理解能力

大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索LLMs对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了LLMs（特别是GPT-3.5-turbo，GPT-4和Llama2系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了LLMs在不同空间结构（包括正方形、六边形和三角形网格、环和树形结构）中的表现变异性。我们还发现，类似于人类，LLMs利用对象名称作为地标来维护空间地图。最后，在广泛的错误分析中，我们发现LLMs的错误反映了空间和非空间因素。这些发现表明，LLMs似乎能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

Oct, 2023

超越线和圆：揭示大型语言模型中的几何推理差距

大型语言模型（LLMs）在数学和算法任务中展现日益增长的能力，但它们的几何推理技能尚未被充分探索。我们研究了LLMs在构造性几何问题求解上的能力，这是人类数学推理发展中最基本的一步。我们的工作揭示了当前LLMs面临的显著挑战，尽管在类似领域取得了很多成功。LLMs在目标变量选择上存在偏见，并且在二维空间关系方面遇到困难，常常误代和产生对象及其放置的幻觉。为此，我们介绍了一个基于LLMs的多智能体系统框架，通过进行内部对话来增强它们现有的推理潜力。这项工作突出了LLMs在几何推理中目前的局限性，并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。

Feb, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

语言模型中的空间推理评估重新构架: 定性推理的现实世界模拟基准

我们提出了一个新的基准评估语言模型中的定性空间推理，该基准建立在逼真的三维仿真数据上，提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性，发现它们在多跳空间推理和解释混合视角描述方面存在困难，并指出了未来改进的方向。

May, 2024

SpaRC和SpaRP：用于理解大型语言模型的空间推理能力的空间推理特征描述和路径生成

当前最先进的大型语言模型（LLMs）在空间推理方面性能较差，但随着模型规模的扩大，在空间推理能力上有了显著提升，Finetuning大或小型语言模型可以显著提高它们的F1分数，专有的LLMs在拓扑空间理解和推理方面明显优于开源模型。

Jun, 2024

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉-语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

大规模语言模型中的推理：几何视角

通过对大型语言模型（LLMs）的几何理解，我们探索了大型语言模型（LLMs）的推理能力，建立了LLMs的表达能力和自注意力图的密度之间的联系，通过理论分析和玩具示例证明了更高的内在维度意味着更大的LLM表达能力，并提供了将几何框架与增强LLM推理能力方法中的最新进展相联系的经验证据。

Jul, 2024

通过几何约束大语言模型导航复杂物理世界

本研究解决了使用大语言模型（LLMs）重建和构建基于文本知识的物理世界的能力缺口。研究提出了一套几何约定，并基于多层图和多智能体系统框架开发了工作流程，以提高对复杂物理世界几何和空间关系的理解。重要发现是，LLMs能够在统一的几何约定下，通过多层图实现多步骤和多目标的几何推理。

Oct, 2024