Cross3DVG: 不同 RGB-D 扫描的跨数据集三维视觉定位基线和数据集
我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。
Dec, 2023
通过使用大型语言模型,我们提出了一种零样本开放词汇的三维视觉定位方法,使用独特的基于对话的方法和视觉程序模块,以及创新的语言 - 物体关联模块,在三维场景中实现了复杂推理,并扩展了现有三维物体检测器的应用范围,取得了显著的性能优势。
Nov, 2023
文本引导的三维视觉定位(T-3DVG)是从复杂的三维场景中定位与语言查询在语义上对应的对象,近年来已经在三维研究领域引起了越来越多的关注。本综述试图全面概述 T-3DVG 的进展,包括基本要素、最新研究进展和未来研究方向,并提供了详细的教程式的管道结构、现有方法的分类和性能评估指标,以及现有方法的潜在限制和未来研究方向。
Jun, 2024
3DGCTR 是一个统一的框架,通过重新考虑 3DVG 模型的基于提示的定位能力,将轻量级字幕头集成到现有的 3DVG 网络中,通过提取提示中的定位信息,有效地提升了 3DDC 的能力,实现了同时进行多任务训练,互相增强性能。
Apr, 2024
这篇论文提出了一种基于多视角变换器(MVT)的方法,将 3D 场景投影到多视角空间中,学习一种更为稳健的多模态表示形式,从而消除特定视角的依赖,并在实验中表现出比现有方法更好的性能。
Apr, 2022
通过系统性地将 3D 视觉语言学习在室内环境中进行有序提升,本研究旨在解决 3D 视觉语言面临的三个主要挑战,包括复杂的 3D 场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约 68K 个 3D 室内场景的场景语料库 SceneVerse 以及基于可扩展的场景图生成方法获取的约 2.5M 个视觉语言对,展示了 Grounded Pre-training for Scenes (GPS) 的有效性,通过在所有现有的 3D 视觉定位基准上取得了最先进的性能,并在具有挑战性的 3D 视觉语言任务的零样本迁移实验中揭示了 SceneVerse 和 GPS 的巨大潜力。
Jan, 2024
我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer,扩展了 ScanRefer 数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外,我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,该基准线在 ScanRefer 基准测试上超越了最新技术。
Sep, 2023
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023
基于大规模视觉 - 语言模型的弱监督学习方法,利用 2D 图像和 3D 点云之间天然存在的对应关系,无需精细标注的边界框注释,通过学习文本 - 3D 对应,实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明,3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。
Dec, 2023
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
Aug, 2023