ChatGPT-4 在 RCC-8 中的定性空间推理能力评估
我们提出了一个新的基准评估语言模型中的定性空间推理,该基准建立在逼真的三维仿真数据上,提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性,发现它们在多跳空间推理和解释混合视角描述方面存在困难,并指出了未来改进的方向。
May, 2024
利用大型语言模型 (大型语言模型) 分析 3D 机器人轨迹数据和 2D 方向形状标注等任务,并引入基于前缀的提示机制,提高了性能,为未来的改进提供了基础。
Dec, 2023
该论文研究了 ChatGPT 和类似模型在空间推理和导航相关任务中的固有限制,并引入了一种新颖的评估框架和基准数据集以评估 ChatGPT 的空间推理能力。研究揭示了模型在空间理解方面的能力和局限性的关键见解。
Dec, 2023
当前最先进的大型语言模型(LLMs)在空间推理方面性能较差,但随着模型规模的扩大,在空间推理能力上有了显著提升,Finetuning 大或小型语言模型可以显著提高它们的 F1 分数,专有的 LLMs 在拓扑空间理解和推理方面明显优于开源模型。
Jun, 2024
定量推理是分析数据的关键技能,本研究引入 QRData 基准,旨在评估大型语言模型对现实世界数据的统计和因果推理能力。研究在一组精心构建的数据集中评估了不同模型的定量推理能力,并发现模型在数据分析和因果推理方面存在困难,同时难以同时使用因果知识和提供的数据。
Feb, 2024
通过对语言模型进行对话交互式评估,将其在常识推理中的功能边界在空间推理方面进行了定性研究,并提出了未来改进语言模型能力和系统化对话评估的建议。
Apr, 2023
大型语言模型(LLMs)具有生成新信息的潜力,这对于研究和创新来说是一个潜在的重大突破。本文观察到 LLMs 能够对具有空间维度的问题进行复杂推理,这表明现有的 LLMs 能够达到相当程度的理解能力,支持其具有重要的新现象产生特性。特别地,Claude 3 在这方面表现良好。
May, 2024
本文对大型语言模型在知识图谱构建和推理方面进行了全面的定量和定性评估,结果表明,GPT-4 在大多数任务中表现优异,并在某些推理和问答数据集中甚至超过了微调模型。同时,我们还提出了基于多智能体的 AutoKG 方法,该方法可利用 LLMs 进行知识图谱构建和推理,为该领域的未来发展提供有趣的机遇。
May, 2023
本文提出了一个自然语言文本中空间推理的问答基准,其中包含更现实的空间现象,并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说,我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明,进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力,从而有助于更好地解决两个外部数据集,即 bAbI 和 boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。
Apr, 2021
利用 16,000 个基于网格的环境构建了一个名为 GRASP 的大规模基准,用于对比经典基线方法和先进的 LLMs(如 GPT-3.5-Turbo 和 GPT-4o)在空间推理场景中解决能量收集问题的表现。实验结果表明,即使是这些先进的 LLMs 也很难一直实现令人满意的解决方案。
Jul, 2024