Mono3DVG: 单目图像中的三维视觉定位

AAAIDec, 2023

Mono3DVG: 单目图像中的三维视觉定位

Mono3DVG: 3D Visual Grounding in Monocular Images

Yang Zhan, Yuan Yuan, Zhitong Xiong

TL;DR我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Abstract

We introduce a novel task of 3d visual grounding in monocular rgb images using language descriptions with both appearance and

3d visual grounding monocular rgb images language descriptions geometry information transformer-based network

发现论文，激发创造

三维视觉对接的多视图 Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

Cross3DVG: 不同 RGB-D 扫描的跨数据集三维视觉定位基线和数据集

该研究提出了一种新的跨数据集三维视觉定位任务 Cross3DVG，创造了一个大规模的包含 63k 个三维对象多样描述的人工注释数据集，研究表明当前三维视觉定位的跨数据集泛化有很大的提升空间，结合 CLIP 的方法可以提高性能。

May, 2023

零字参数开放词汇三维视觉定位的可视化编程

通过使用大型语言模型，我们提出了一种零样本开放词汇的三维视觉定位方法，使用独特的基于对话的方法和视觉程序模块，以及创新的语言 - 物体关联模块，在三维场景中实现了复杂推理，并扩展了现有三维物体检测器的应用范围，取得了显著的性能优势。

Nov, 2023

文本引导的 3D 视觉定位调查：要素、最新进展与未来方向

文本引导的三维视觉定位（T-3DVG）是从复杂的三维场景中定位与语言查询在语义上对应的对象，近年来已经在三维研究领域引起了越来越多的关注。本综述试图全面概述 T-3DVG 的进展，包括基本要素、最新研究进展和未来研究方向，并提供了详细的教程式的管道结构、现有方法的分类和性能评估指标，以及现有方法的潜在限制和未来研究方向。

Jun, 2024

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

3DGCTR 是一个统一的框架，通过重新考虑 3DVG 模型的基于提示的定位能力，将轻量级字幕头集成到现有的 3DVG 网络中，通过提取提示中的定位信息，有效地提升了 3DDC 的能力，实现了同时进行多任务训练，互相增强性能。

Apr, 2024

Multi3DRefer: 文本描述与多个 3D 对象的关联

我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer，扩展了 ScanRefer 数据集和任务，并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外，我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案，构建了更好的基准线，该基准线在 ScanRefer 基准测试上超越了最新技术。

Sep, 2023

MonoGRNet: 基于几何推理的单目三维物体定位网络

提出 MonoGRNet 用于从单目 RGB 图像通过几何推理在观测到的 2D 投影和未观测到的深度维度上进行遮挡物体的 3D 检测，并通过优化 3D 包围框的位置和姿态实现关节学习，表现出最先进的性能。

Nov, 2018

TransVG：基于 Transformer 的端到端视觉定位

本文提出了一种基于 Transformer 的视觉定位框架 TransVG，通过建立多模态对应关系，实现使用简单 Transformer 编码器层替代复杂的融合模块，在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。

Apr, 2021

基于自由形式描述导向的点云物体 grounding 的三维视觉图网络

本篇论文提出了基于自由文本语言描述的三维物体定位方法，通过引入多个图模型来解决不同挑战。经过在挑战类数据集上的多次测试，结果表明我们所提出的算法优于现有最先进技术。

Mar, 2021