Cross3DVG: 不同 RGB-D 扫描的跨数据集三维视觉定位基线和数据集

May, 2023

Cross3DVG: 不同 RGB-D 扫描的跨数据集三维视觉定位基线和数据集

Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe

TL;DR该研究提出了一种新的跨数据集三维视觉定位任务 Cross3DVG，创造了一个大规模的包含 63k 个三维对象多样描述的人工注释数据集，研究表明当前三维视觉定位的跨数据集泛化有很大的提升空间，结合 CLIP 的方法可以提高性能。

Abstract

We present Cross3DVG, a novel task for cross-dataset visual grounding in 3D scenes, revealing the limitations of existing 3d visual grounding models using restricted 3D resources and thus easily overfit to a specific 3D dataset. To facilitate Cross3DVG, we have created a large-scale

3d visual grounding cross-dataset generalization clip visual grounding models deep language understanding

发现论文，激发创造

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

零字参数开放词汇三维视觉定位的可视化编程

通过使用大型语言模型，我们提出了一种零样本开放词汇的三维视觉定位方法，使用独特的基于对话的方法和视觉程序模块，以及创新的语言 - 物体关联模块，在三维场景中实现了复杂推理，并扩展了现有三维物体检测器的应用范围，取得了显著的性能优势。

Nov, 2023

文本引导的 3D 视觉定位调查：要素、最新进展与未来方向

文本引导的三维视觉定位（T-3DVG）是从复杂的三维场景中定位与语言查询在语义上对应的对象，近年来已经在三维研究领域引起了越来越多的关注。本综述试图全面概述 T-3DVG 的进展，包括基本要素、最新研究进展和未来研究方向，并提供了详细的教程式的管道结构、现有方法的分类和性能评估指标，以及现有方法的潜在限制和未来研究方向。

Jun, 2024

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

3DGCTR 是一个统一的框架，通过重新考虑 3DVG 模型的基于提示的定位能力，将轻量级字幕头集成到现有的 3DVG 网络中，通过提取提示中的定位信息，有效地提升了 3DDC 的能力，实现了同时进行多任务训练，互相增强性能。

Apr, 2024

三维视觉对接的多视图 Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将 3D 视觉语言学习在室内环境中进行有序提升，本研究旨在解决 3D 视觉语言面临的三个主要挑战，包括复杂的 3D 场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约 68K 个 3D 室内场景的场景语料库 SceneVerse 以及基于可扩展的场景图生成方法获取的约 2.5M 个视觉语言对，展示了 Grounded Pre-training for Scenes (GPS) 的有效性，通过在所有现有的 3D 视觉定位基准上取得了最先进的性能，并在具有挑战性的 3D 视觉语言任务的零样本迁移实验中揭示了 SceneVerse 和 GPS 的巨大潜力。

Jan, 2024

Multi3DRefer: 文本描述与多个 3D 对象的关联

我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer，扩展了 ScanRefer 数据集和任务，并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外，我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案，构建了更好的基准线，该基准线在 ScanRefer 基准测试上超越了最新技术。

Sep, 2023

运用场景知识推进视觉连接：基准与方法

本文提出了一个新的基准数据集 SK-VG，其中图像内容和指代表达不足以确定目标对象，迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入，前者在图像查询交互之前将知识嵌入图像特征，后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性，并展示了他们取得的有希望的结果，但仍有改进的空间，包括性能和可解释性。

Jul, 2023

基于视觉语义对齐的弱监督三维视觉定位

基于大规模视觉 - 语言模型的弱监督学习方法，利用 2D 图像和 3D 点云之间天然存在的对应关系，无需精细标注的边界框注释，通过学习文本 - 3D 对应，实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明，3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。

Dec, 2023

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023