评估大型语言模型在理解基数方向上的能力

Jun, 2024

评估大型语言模型在理解基数方向上的能力

Evaluating the Ability of Large Language Models to Reason about Cardinal Directions

Anthony G Cohn, Robert E Blackwell

TL;DR探讨大型语言模型在基于基数方向的推理能力方面的研究，通过创建两个数据集，发现尽管在简单数据集中大型语言模型表现良好，但在更复杂的数据集中，即使温度设置为零，没有任何大型语言模型能够可靠地确定正确的基数方向。

Abstract

We investigate the abilities of a representative set of large language models (LLMs) to reason about cardinal directions (CDs). To do so, we create two datasets: the first, co-created with ChatGPT, focuses largel

large language models reasoning cardinal directions recall world knowledge

发现论文，激发创造

大型语言模型中判断空间关系的失真：自然语言地理数据的黎明？

我们提出了一个评估大型语言模型（LLM）判断地理位置之间的斜对角方向能力的基准，并将其应用于三个知名的 LLM：GPT-3.5，GPT-4 和 Llama-2。在测试中，GPT-4 表现出优越的性能，准确率为 55.3%，其次是 GPT-3.5 的 47.3%，Llama-2 的 44.7%。尽管这些模型在可能存在层次性偏差的任务上的准确性较低，但它们大多数情况下能够识别最近的基准方向，显示出类似人类的错误理解，我们讨论了直接用代表地理关系的文本数据来改进 LLM 的空间推理能力的潜力。

Jan, 2024

探索和提升大型语言模型的空间推理能力

利用大型语言模型 (大型语言模型) 分析 3D 机器人轨迹数据和 2D 方向形状标注等任务，并引入基于前缀的提示机制，提高了性能，为未来的改进提供了基础。

Dec, 2023

大型语言模型能否为空间推理任务创造新的知识？

大型语言模型（LLMs）具有生成新信息的潜力，这对于研究和创新来说是一个潜在的重大突破。本文观察到 LLMs 能够对具有空间维度的问题进行复杂推理，这表明现有的 LLMs 能够达到相当程度的理解能力，支持其具有重要的新现象产生特性。特别地，Claude 3 在这方面表现良好。

May, 2024

评估大型语言模型的空间理解能力

大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了 LLMs（特别是 GPT-3.5-turbo，GPT-4 和 Llama2 系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs 在不同空间结构（包括正方形、六边形和三角形网格、环和树形结构）中的表现变异性。我们还发现，类似于人类，LLMs 利用对象名称作为地标来维护空间地图。最后，在广泛的错误分析中，我们发现 LLMs 的错误反映了空间和非空间因素。这些发现表明，LLMs 似乎能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

Oct, 2023

大型语言模型具备地理空间知识吗？

该研究通过探测具备预训练能力的大型语言模型对地理数据的理解程度和与此相关的促进地理空间决策的能力，通过三个实验验证结论，表明合成地理空间知识需要更大规模和更复杂的语言模型，并且对于处理地理空间信息，大型语言模型的潜力和局限性值得研究。

Oct, 2023

关于空间信息的 LLM 固有限制

该论文研究了 ChatGPT 和类似模型在空间推理和导航相关任务中的固有限制，并引入了一种新颖的评估框架和基准数据集以评估 ChatGPT 的空间推理能力。研究揭示了模型在空间理解方面的能力和局限性的关键见解。

Dec, 2023

CARTIER：面向机器人指令执行的地图语言推理

该研究通过大型语言模型（LLMs）探索了空间规划和自然语言界面与导航的交叉问题。我们关注的是遵循与传统机器人指令不同、更类似于自然对话的相对复杂的指令。与先前的大多数工作不同的是，我们研究了对话交互中的隐式指令。通过利用 3D 模拟器 AI2Thor 在规模上创建复杂且可重复的场景，并通过为 40 种对象类型增加复杂的语言查询来扩充它。我们证明了通过使用 LLM 将用户交互解释为场景中对象列表的上下文，机器人能够更好地解析描述性语言查询。

Jul, 2023

大型语言模型能否将 2 和 2 相加？探测蕴含的数学关系

大型语言模型在知识获取和统计推理方面取得了稳定进展，但在常识推理任务中仍存在局限性，纯统计学习难以应对其中的组合爆炸问题，更大并不总是更好，而且单纯追求统计改进只会加重正确答案与真正推理能力之间的危险混淆。

Apr, 2024

超越线和圆：揭示大型语言模型中的几何推理差距

大型语言模型（LLMs）在数学和算法任务中展现日益增长的能力，但它们的几何推理技能尚未被充分探索。我们研究了 LLMs 在构造性几何问题求解上的能力，这是人类数学推理发展中最基本的一步。我们的工作揭示了当前 LLMs 面临的显著挑战，尽管在类似领域取得了很多成功。LLMs 在目标变量选择上存在偏见，并且在二维空间关系方面遇到困难，常常误代和产生对象及其放置的幻觉。为此，我们介绍了一个基于 LLMs 的多智能体系统框架，通过进行内部对话来增强它们现有的推理潜力。这项工作突出了 LLMs 在几何推理中目前的局限性，并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。

Feb, 2024

大型语言模型能成为良好的路径规划器吗？空间 - 时间推理的基准和研究调查

大型语言模型在路径规划和空间推理方面取得了显著的成功，少样本的 GPT-4 通过不同的提示方法在空间推理方面表现出了潜力，而微调的 LLMs 则在小环境或有障碍物的情况下难以推广。

Oct, 2023