SpatialBot:基于视觉语言模型的精确空间理解
提出了一种空间语言模型用于3D视觉定位问题,使用基于Transformer的架构将空间嵌入和DistilBert的语言嵌入结合起来进行目标对象预测,能够在ReferIt3D提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021
本研究提出Visual Spatial Reasoning(VSR)数据集,这是包含超过10k已标注的英文自然文本图像对和66种空间关系的数据集,研究表明当前视觉语言模型只能达到约70%的准确率,无法识别有关物体朝向的关系。
Apr, 2022
通过创造新的语义理解基准数据集,研究表明近期的视觉-语言模型在识别基本空间关系方面表现较差,这是由于常用的数据集如VQAv2中缺乏关于学习空间关系的可靠数据来源。
Oct, 2023
通过在互联网规模的空间推理数据上训练Visual Language Model(VLM),我们显著增强了其在定量和定性空间VQA方面的能力,并实现了链式思维空间推理和机器人学等新颖应用。
Jan, 2024
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种3D数据表示,分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话,以及基于LLMs的空间推理、规划和导航等任务中的应用,同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
通过数据处理和深度信息集成,Spatial Region GPT(SpatialRGPT)提升了Vision Language Models(VLMs)的空间感知和推理能力,并且在空间推理任务中显著提高了性能。
Jun, 2024
近期大型视觉-语言模型(LVLMs)的快速发展表明它们在具体任务中的潜力,然而,目前的LVLMs在具体环境中的空间理解能力尚未得到充分评估,这使得当前LVLMs与合格的具体智能之间存在未知差距。为此,我们构建了EmbSpatial-Bench,这是一个用于评估LVLMs具体空间理解能力的基准测试。该基准测试是从具体场景自动衍生而来的,涵盖了从个体视角出发的6种空间关系。实验证明了研究结果,即当前的LVLMs(甚至包括GPT-4V)的容量不足,我们进一步提出了EmbSpatial-SFT,这是一个旨在提高LVLMs具体空间理解能力的指导调优数据集。
Jun, 2024
大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
本研究解决了当前视觉语言模型在定量空间推理方面的不足,尤其是关于物体大小和距离的推理能力。通过引入一个手动注释的基准Q-Spatial Bench,研究发现某些视觉语言模型在有参考对象的情况下能显著提升推理成功率,并开发了一个名为SpatialPrompt的零样本提示技术,进一步提高了模型的定量空间推理性能,无需额外的数据或模型调整。
Sep, 2024
本研究解决了机器人在执行抓取、排列和搜索等任务时,如何有效推理物体间空间关系的问题。提出了一种结构化的概率方法,结合丰富的三维几何特征和最先进的开放词汇物体检测器,从而增强机器人的空间推理能力。实验结果表明,该方法在空间关系的识别上比现有技术优势超过20%。
Oct, 2024