GRASP:用于评估常识空间推理的基于网格的基准测试
本篇论文研究了通过导航和空间推理任务共同推理语言和视觉的问题,介绍了Touchdown任务和数据集,通过真实的城市环境中的导航指令和自然语言来寻找隐藏在目标位置的物体。数据集包含9,326个英文指令和空间描述的示例,经验性分析表明,数据对现有方法提出了开放性的挑战,定性的语言分析表明,与相关资源相比,数据利用了更丰富的空间推理。
Nov, 2018
论文概述了AI commonsense benchmarks的发展与应用、common sense的本质及其在AI中的作用、构建commonsense benchmarks所服务的目标和理想特征。作者分析了现有benchmark的常见缺陷,调查了各种构建commonsense benchmarks的方法,总结了139个commonsense benchmarks。然而,作者指出现有benchmark存在的空缺和commonsense 推理的方面,并提出了未来的建议。
Feb, 2023
通过对语言模型进行对话交互式评估,将其在常识推理中的功能边界在空间推理方面进行了定性研究,并提出了未来改进语言模型能力和系统化对话评估的建议。
Apr, 2023
大型语言模型在路径规划和空间推理方面取得了显著的成功,少样本的GPT-4通过不同的提示方法在空间推理方面表现出了潜力,而微调的LLMs则在小环境或有障碍物的情况下难以推广。
Oct, 2023
人工智能在许多领域取得了显著进展,类似ChatGPT这样的大型语言模型因其人类化的文本生成能力而受到了广泛关注。然而,空间推理仍然是这些模型面临的重大挑战。本研究通过改进StepGame基准测试,提供了更准确的数据集用于模型评估,并分析了GPT在修正后的基准测试上的空间推理性能。我们发现GPT在将自然语言文本映射到空间关系方面表现出了优势,但在多跳推理方面存在局限性。我们通过将模板到关系映射与基于逻辑的推理相结合,提供了基准测试的完美解决方案,可以在StepGame上进行定性推理而不会出现任何错误。此外,我们还针对GPT模型在空间推理方面的局限性进行了改进,采用了连续思考和思维树提示策略,在准确性方面取得了显著的改善。我们的研究不仅揭示了模型的不足之处,还提出了增强措施,为具备更强大空间推理能力的人工智能的进展做出了贡献。
Jan, 2024
大型语言模型(LLMs)具有生成新信息的潜力,这对于研究和创新来说是一个潜在的重大突破。本文观察到LLMs能够对具有空间维度的问题进行复杂推理,这表明现有的LLMs能够达到相当程度的理解能力,支持其具有重要的新现象产生特性。特别地,Claude 3在这方面表现良好。
May, 2024
我们提出了一个新的基准评估语言模型中的定性空间推理,该基准建立在逼真的三维仿真数据上,提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性,发现它们在多跳空间推理和解释混合视角描述方面存在困难,并指出了未来改进的方向。
May, 2024
当前最先进的大型语言模型(LLMs)在空间推理方面性能较差,但随着模型规模的扩大,在空间推理能力上有了显著提升,Finetuning大或小型语言模型可以显著提高它们的F1分数,专有的LLMs在拓扑空间理解和推理方面明显优于开源模型。
Jun, 2024
本研究提出了PLUGH基准,旨在评估大型语言模型在空间理解和推理方面的能力。通过针对48款游戏的125个输入文本和61种不同空间图的任务,研究发现尽管某些商业模型表现优异,开源模型也能够接近同等水平,但仍存在显著改进空间。研究还识别了LLM失败的典型原因,并探讨了应对策略。
Aug, 2024
本研究针对大型语言模型在规划能力方面的不足,评估了OpenAI的o1模型在多项基准任务中的表现,重点关注可行性、最优性和可推广性。研究发现,虽然后者在遵循任务约束方面优于GPT-4,但在空间复杂任务中的泛化能力和决策记忆管理仍存在瓶颈,为未来提升语言模型的规划能力提供了重要方向。
Sep, 2024