Space-语言模型用于3D视觉基础
提出结合语言表述和三维可视化的方法,通过生成模型和检测模型等工具,可以从图像中推理出三维可视特征图,并进一步实现语言方面的任务,如检测引用表达和物体放置策略。这种方法可以更好地进行全景视角和空间推理。
Oct, 2019
本文介绍了一个新的推理任务,旨在针对三维对象的视觉和非视觉语言,并介绍了用于区分对象的几种 CLIP 模型。虽然最近在联合建模视觉和语言方面取得了进展,但这些基于图像的模型仍然对对象的三维性质了解不足,此文发现,将视图估计添加到语言引理模型可以提高准确性。
Jul, 2021
提出了一种语言引导的物体检测模型,使用底部和顶部的启发式信息来实现参考指称地面实体,同时获得了在流行的3D语言基础基准测试中的新的最先进的性能表现,与以前的技术相比显著提高。
Dec, 2021
探讨使用大量语言模型来实现场景理解的常识;介绍了三种利用语言对包含对象的室内环境进行分类的范例:(i)零样本方法,(ii)前馈分类器方法和(iii)对比分类器方法,在现代空间感知系统生成的3D场景图上进行操作,并通过分析每种途径,展示了显着的零样本泛化和转移能力;最后,展示了这些方法也适用于推断包含房间的建筑标签,并在真实环境中展示了零样本方法。
Sep, 2022
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
LLM-Grounder是一种零样本、开放词汇量的基于大型语言模型(LLM)的3D视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别3D场景中的对象,LLM-Grounder评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型3D场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM显著提高了定位能力,尤其对于复杂语言查询,在机器人的3D视觉语言任务中,LLM-Grounder是一种有效的方法。
Sep, 2023
通过系统性地将3D视觉语言学习在室内环境中进行有序提升,本研究旨在解决3D视觉语言面临的三个主要挑战,包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对,展示了Grounded Pre-training for Scenes (GPS)的有效性,通过在所有现有的3D视觉定位基准上取得了最先进的性能,并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。
Jan, 2024
文中通过提供对象的显式位置信息并进行适当训练,展示出仅文本的语言模型(Language Models)可以学习到类似“左侧”或“下方”等空间关系。通过对视觉空间推理(Visual Spatial Reasoning)数据集的一个口语化版本进行实验,其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记,以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小,但使用位置信息并无明显改进,然而,通过在由作者衍生的合成数据集上进行预训练,使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解,仅文本的语言模型表现优于视觉与语言模型,成为视觉空间推理数据集的最新技术成果。作者的分析显示,仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系,并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。
Mar, 2024
通过数据处理和深度信息集成,Spatial Region GPT(SpatialRGPT)提升了Vision Language Models(VLMs)的空间感知和推理能力,并且在空间推理任务中显著提高了性能。
Jun, 2024
本研究旨在解决三维场景中目标物体落地的可解释性问题。提出的R2G模型通过构建基于语义概念的场景图,动态模拟对象间的注意力转移,从而实现更高概率的目标物体落地过程。实验结果表明,R2G在保持以前工作成果的情况下,显著提高了结果的可解释性,为三维语言落地开辟了新路径。
Aug, 2024