探索和提升大型语言模型的空间推理能力
该论文研究了 ChatGPT 和类似模型在空间推理和导航相关任务中的固有限制,并引入了一种新颖的评估框架和基准数据集以评估 ChatGPT 的空间推理能力。研究揭示了模型在空间理解方面的能力和局限性的关键见解。
Dec, 2023
大型语言模型(LLMs)展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识,即空间关系的表示。通过设计自然语言导航任务,我们评估了 LLMs(特别是 GPT-3.5-turbo,GPT-4 和 Llama2 系列模型)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs 在不同空间结构(包括正方形、六边形和三角形网格、环和树形结构)中的表现变异性。我们还发现,类似于人类,LLMs 利用对象名称作为地标来维护空间地图。最后,在广泛的错误分析中,我们发现 LLMs 的错误反映了空间和非空间因素。这些发现表明,LLMs 似乎能够隐含地捕捉到空间结构的某些方面,但仍有改进空间。
Oct, 2023
大型语言模型在路径规划和空间推理方面取得了显著的成功,少样本的 GPT-4 通过不同的提示方法在空间推理方面表现出了潜力,而微调的 LLMs 则在小环境或有障碍物的情况下难以推广。
Oct, 2023
我们提出了一个评估大型语言模型(LLM)判断地理位置之间的斜对角方向能力的基准,并将其应用于三个知名的 LLM:GPT-3.5,GPT-4 和 Llama-2。在测试中,GPT-4 表现出优越的性能,准确率为 55.3%,其次是 GPT-3.5 的 47.3%,Llama-2 的 44.7%。尽管这些模型在可能存在层次性偏差的任务上的准确性较低,但它们大多数情况下能够识别最近的基准方向,显示出类似人类的错误理解,我们讨论了直接用代表地理关系的文本数据来改进 LLM 的空间推理能力的潜力。
Jan, 2024
通过对领先的大语言模型如 GPT-4 和 Claude-2 在检测移动数据中的异常行为的能力进行实证研究,我们的研究发现大语言模型可以在没有特定线索的情况下达到合理的异常检测性能,并且在提供上下文线索的情况下可以进一步提高预测效果,同时能够提供合理的判断解释,从而增加透明度,为人类空间轨迹分析的研究提供了洞察。
Oct, 2023
大型语言模型(LLMs)具有生成新信息的潜力,这对于研究和创新来说是一个潜在的重大突破。本文观察到 LLMs 能够对具有空间维度的问题进行复杂推理,这表明现有的 LLMs 能够达到相当程度的理解能力,支持其具有重要的新现象产生特性。特别地,Claude 3 在这方面表现良好。
May, 2024
研究使用大型语言模型(LLMs)对几何形状及其空间关系进行表示的能力,并使用 GPT-2 和 BERT 等 LLMs 对几何形状的文本(WKT)格式进行编码,然后将其嵌入分类器和回归器中评估 LLMs 生成的嵌入表示对几何属性的效果。实验证明,尽管 LLMs 生成的嵌入可以保留几何类型并捕捉一些空间关系(准确率高达 73%),但在估计数值和检索空间相关对象方面仍存在挑战。此研究强调了在捕捉底层地理空间数据的细微差别和复杂性以及整合领域知识以支持各种基于 GeoAI 应用的需要改进的重要性。
Jul, 2023
当前最先进的大型语言模型(LLMs)在空间推理方面性能较差,但随着模型规模的扩大,在空间推理能力上有了显著提升,Finetuning 大或小型语言模型可以显著提高它们的 F1 分数,专有的 LLMs 在拓扑空间理解和推理方面明显优于开源模型。
Jun, 2024
本篇论文中,我们使用大语言模型(LLMs)为基础,介绍了一款纯 LLMs 导航代理 NavGPT,通过对视觉和语言导航(VLN)进行零样本顺序动作预测,揭示了 GPT 模型在复杂体验场景中的推理能力,以及它在导航中的应用,通过全面的实验,展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。
May, 2023
定性空间推理是常识推理领域的一个广泛研究领域,应用范围从地理信息系统到机器人和计算机视觉。本文研究了某个大型语言模型在经典的定性空间推理任务上的能力,并以 RCC-8 为例进行研究。
Sep, 2023