Multi3DRefer: 文本描述与多个3D对象的关联
该论文介绍了如何使用自然语言描述来学习将文本场景映射到三维几何表示中的方法,并且使用基于规则的方法来生成三维场景的方法得到了改进。他们还引入了一种自动化评估度量来评估生成的3D场景。
May, 2015
本研究提出了通过自然语言描述在RGB-D扫描中进行3D对象定位的方法ScanRefer,使用3D对象提取和编码的句子嵌入来学习融合描述符,将语言表达与几何特征进行相关性建模,可以实现目标对象的3D边界框的回归。同时还构建了ScanRefer数据集,包含来自800个ScanNet场景的11,046个对象的51,583个描述。这是第一个通过自然语言直接在3D中执行对象定位的大规模尝试。
Dec, 2019
这篇论文提出了一种基于多视角变换器(MVT)的方法,将3D场景投影到多视角空间中,学习一种更为稳健的多模态表示形式,从而消除特定视角的依赖,并在实验中表现出比现有方法更好的性能。
Apr, 2022
ViewRefer 是一个用于 3D 视觉定位的多视角框架,可以在文本和 3D 两种模态下获取视觉知识,提出了一种可学习的多视角原型来记忆不同视角下的场景通用知识,同时还利用视角引导的注意力模块以及最终预测中的视角引导评分策略,实现了对三个基准测试的表现优于现有技术,并且超过了第二名的+2.8%、+1.2%和+0.73%。
Mar, 2023
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法,并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征,匹配语言中的语义特征。我们提出了两个新的数据集,STRefer和LifeRefer,这些数据集对于野外3D视觉定位的研究具有重要意义,并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明,我们的方法在两个提出的数据集上实现了最先进的性能。
Apr, 2023
通过语义定位3D场景中的物体是多媒体理解领域的一项基础且重要的任务,本研究提出了一种名为3D Dense Object Grounding (3D DOG)的新任务,通过更复杂的段落描述而不是单个句子来共同定位多个物体,提出了一种基于Stacked Transformer的新框架3DOGSFormer,通过上下文查询驱动的局部Transformer解码器生成初始定位提议,并利用提议驱动的全局Transformer解码器进一步优化初始定位提议,实验证明该方法在多个具有挑战性的基准上胜过现有的3D单个物体定位方法和它们的稠密对象变种。
Sep, 2023
通过引入密集三维视觉接地网络ConcreteNet,该文研究了在物理交互类应用中实现密集三维视觉接地的方法,包括引入底层注意融合模块、对潜在空间进行对比训练、以及解决视角依赖性表达的全局相机令牌,提高了富有挑战性的重复实例的接地性能,从而实现了在三维场景中进行的交互式物体定位。
Sep, 2023
通过系统性地将3D视觉语言学习在室内环境中进行有序提升,本研究旨在解决3D视觉语言面临的三个主要挑战,包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对,展示了Grounded Pre-training for Scenes (GPS)的有效性,通过在所有现有的3D视觉定位基准上取得了最先进的性能,并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。
Jan, 2024
文本引导的三维视觉定位(T-3DVG)是从复杂的三维场景中定位与语言查询在语义上对应的对象,近年来已经在三维研究领域引起了越来越多的关注。本综述试图全面概述T-3DVG的进展,包括基本要素、最新研究进展和未来研究方向,并提供了详细的教程式的管道结构、现有方法的分类和性能评估指标,以及现有方法的潜在限制和未来研究方向。
Jun, 2024