ChatGPT-4 在 RCC-8 中的定性空间推理能力评估

Sep, 2023

ChatGPT-4 在 RCC-8 中的定性空间推理能力评估

An Evaluation of ChatGPT-4's Qualitative Spatial Reasoning Capabilities in RCC-8

Anthony G Cohn

TL;DR定性空间推理是常识推理领域的一个广泛研究领域，应用范围从地理信息系统到机器人和计算机视觉。本文研究了某个大型语言模型在经典的定性空间推理任务上的能力，并以 RCC-8 为例进行研究。

Abstract

qualitative spatial reasoning (QSR) is well explored area of Commonsense Reasoning and has multiple applications ranging from Geographical Information Systems to robotics and →

qualitative spatial reasoning commonsense reasoning geographical information systems robotics computer vision

发现论文，激发创造

语言模型中的空间推理评估重新构架：定性推理的现实世界模拟基准

我们提出了一个新的基准评估语言模型中的定性空间推理，该基准建立在逼真的三维仿真数据上，提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性，发现它们在多跳空间推理和解释混合视角描述方面存在困难，并指出了未来改进的方向。

May, 2024

探索和提升大型语言模型的空间推理能力

利用大型语言模型 (大型语言模型) 分析 3D 机器人轨迹数据和 2D 方向形状标注等任务，并引入基于前缀的提示机制，提高了性能，为未来的改进提供了基础。

Dec, 2023

关于空间信息的 LLM 固有限制

该论文研究了 ChatGPT 和类似模型在空间推理和导航相关任务中的固有限制，并引入了一种新颖的评估框架和基准数据集以评估 ChatGPT 的空间推理能力。研究揭示了模型在空间理解方面的能力和局限性的关键见解。

Dec, 2023

SpaRC 和 SpaRP：用于理解大型语言模型的空间推理能力的空间推理特征描述和路径生成

当前最先进的大型语言模型（LLMs）在空间推理方面性能较差，但随着模型规模的扩大，在空间推理能力上有了显著提升，Finetuning 大或小型语言模型可以显著提高它们的 F1 分数，专有的 LLMs 在拓扑空间理解和推理方面明显优于开源模型。

Jun, 2024

LLM 是否具备基于数据的统计和因果推理能力？通过数据进行高级量化推理的基准测试

定量推理是分析数据的关键技能，本研究引入 QRData 基准，旨在评估大型语言模型对现实世界数据的统计和因果推理能力。研究在一组精心构建的数据集中评估了不同模型的定量推理能力，并发现模型在数据分析和因果推理方面存在困难，同时难以同时使用因果知识和提供的数据。

Feb, 2024

辩证语言模型评估：对 LLMs 常识空间推理能力的初步评估

通过对语言模型进行对话交互式评估，将其在常识推理中的功能边界在空间推理方面进行了定性研究，并提出了未来改进语言模型能力和系统化对话评估的建议。

Apr, 2023

大型语言模型能否为空间推理任务创造新的知识？

大型语言模型（LLMs）具有生成新信息的潜力，这对于研究和创新来说是一个潜在的重大突破。本文观察到 LLMs 能够对具有空间维度的问题进行复杂推理，这表明现有的 LLMs 能够达到相当程度的理解能力，支持其具有重要的新现象产生特性。特别地，Claude 3 在这方面表现良好。

May, 2024

知识图谱构建与推理的 LLMs: 最新能力和未来机遇

本文对大型语言模型在知识图谱构建和推理方面进行了全面的定量和定性评估，结果表明，GPT-4 在大多数任务中表现优异，并在某些推理和问答数据集中甚至超过了微调模型。同时，我们还提出了基于多智能体的 AutoKG 方法，该方法可利用 LLMs 进行知识图谱构建和推理，为该领域的未来发展提供有趣的机遇。

May, 2023

SpartQA：面向空间推理的文本问答基准

本文提出了一个自然语言文本中空间推理的问答基准，其中包含更现实的空间现象，并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说，我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明，进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力，从而有助于更好地解决两个外部数据集，即 bAbI 和 boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。

Apr, 2021

GRASP：用于评估常识空间推理的基于网格的基准测试

利用 16,000 个基于网格的环境构建了一个名为 GRASP 的大规模基准，用于对比经典基线方法和先进的 LLMs（如 GPT-3.5-Turbo 和 GPT-4o）在空间推理场景中解决能量收集问题的表现。实验结果表明，即使是这些先进的 LLMs 也很难一直实现令人满意的解决方案。

Jul, 2024