关于空间信息的 LLM 固有限制

Dec, 2023

Inherent limitations of LLMs regarding spatial information

He Yan, Xinyao Hu, Xiangpeng Wan, Chengyu Huang, Kai Zou...

TL;DR该论文研究了 ChatGPT 和类似模型在空间推理和导航相关任务中的固有限制，并引入了一种新颖的评估框架和基准数据集以评估 ChatGPT 的空间推理能力。研究揭示了模型在空间理解方面的能力和局限性的关键见解。

Abstract

Despite the significant advancements in natural language processing capabilities demonstrated by large language models such as ChatGPT, their proficiency in comprehending and processing spatial information, especially within the domains of 2D and 3D route planning, remains notably unde

natural language processing spatial reasoning navigation-related tasks evaluation framework spatial understanding

发现论文，激发创造

探索和提升大型语言模型的空间推理能力

利用大型语言模型 (大型语言模型) 分析 3D 机器人轨迹数据和 2D 方向形状标注等任务，并引入基于前缀的提示机制，提高了性能，为未来的改进提供了基础。

Dec, 2023

评估大型语言模型的空间理解能力

大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了 LLMs（特别是 GPT-3.5-turbo，GPT-4 和 Llama2 系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs 在不同空间结构（包括正方形、六边形和三角形网格、环和树形结构）中的表现变异性。我们还发现，类似于人类，LLMs 利用对象名称作为地标来维护空间地图。最后，在广泛的错误分析中，我们发现 LLMs 的错误反映了空间和非空间因素。这些发现表明，LLMs 似乎能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

Oct, 2023

大型语言模型能成为良好的路径规划器吗？空间 - 时间推理的基准和研究调查

大型语言模型在路径规划和空间推理方面取得了显著的成功，少样本的 GPT-4 通过不同的提示方法在空间推理方面表现出了潜力，而微调的 LLMs 则在小环境或有障碍物的情况下难以推广。

Oct, 2023

开拓新领域：探索多模态 LLMs 的地理和地理空间能力

通过进行一系列实验，我们研究了多模态大型语言模型在地理和地理空间领域的知识和能力，重点关注前沿模型 GPT-4V 的视觉能力，并与开源模型进行性能比较。我们的方法涉及使用一套地理任务的小规模基准测试这些模型，测试它们在不同难度任务上的能力。分析结果揭示了这些模型的优点，包括超过人类的性能，并揭示了它们的不足之处，提供了它们在地理领域能力的全面视角。为了促进未来模型的比较和评估，我们将公开发布我们的基准测试。

Nov, 2023

GPT4GEO：语言模型如何看待世界地理

本篇研究探究 GPT-4 模型应用于地理数据场景问题的解决能力，试图了解其是否具备对地理位置、距离、海拔，以及更复杂的问题如国家轮廓、旅游网络、路线规划和供应链分析的理解和解决能力。结果表明该模型在一定程度上具备对世界的认识，但仍存在限制。

May, 2023

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

大型语言模型中判断空间关系的失真：自然语言地理数据的黎明？

我们提出了一个评估大型语言模型（LLM）判断地理位置之间的斜对角方向能力的基准，并将其应用于三个知名的 LLM：GPT-3.5，GPT-4 和 Llama-2。在测试中，GPT-4 表现出优越的性能，准确率为 55.3%，其次是 GPT-3.5 的 47.3%，Llama-2 的 44.7%。尽管这些模型在可能存在层次性偏差的任务上的准确性较低，但它们大多数情况下能够识别最近的基准方向，显示出类似人类的错误理解，我们讨论了直接用代表地理关系的文本数据来改进 LLM 的空间推理能力的潜力。

Jan, 2024

CityGPT：大型语言模型赋能城市空间认知

CityGPT 是一种用于增强大型语言模型在理解城市空间和解决相关城市任务方面能力的系统框架，通过在模型中构建城市规模的世界模型，并使用包含城市知识的多样化指令调整数据集 CityInstruction 来进行模型微调，实现对城市空间的理解和空间推理能力的有效增强。

Jun, 2024

大型语言模型具备地理空间知识吗？

该研究通过探测具备预训练能力的大型语言模型对地理数据的理解程度和与此相关的促进地理空间决策的能力，通过三个实验验证结论，表明合成地理空间知识需要更大规模和更复杂的语言模型，并且对于处理地理空间信息，大型语言模型的潜力和局限性值得研究。

Oct, 2023

ChatGPT-4 在 RCC-8 中的定性空间推理能力评估

定性空间推理是常识推理领域的一个广泛研究领域，应用范围从地理信息系统到机器人和计算机视觉。本文研究了某个大型语言模型在经典的定性空间推理任务上的能力，并以 RCC-8 为例进行研究。

Sep, 2023