MiKASA: 3D 视觉定位的多关键锚点和场景感知变换器

Mar, 2024

MiKASA: 3D 视觉定位的多关键锚点和场景感知变换器

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding

Chun-Peng Chang, Shaoxiang Wang, Alain Pagani, Didier Stricker

TL;DR我们提出了 MiKASA（多键锚点场景感知）Transformer 模型，通过自注意力机制和多键锚点技术，提高了目标识别的准确性和对空间关系的理解，同时改善了决策的可解释性。在 Referit3D 挑战中，我们的模型在 Sr3D 和 Nr3D 数据集中取得了最高的准确度，并在需要依赖视角的描述方面表现出色。

Abstract

3d visual grounding involves matching natural language descriptions with their corresponding objects in 3D spaces. Existing methods often face challenges with accuracy in object recognition and struggle in interp

3d visual grounding mikasa transformer object recognition linguistic queries viewpoint-dependent descriptions

发现论文，激发创造

三维视觉对接的多视图 Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

Multi3DRefer: 文本描述与多个 3D 对象的关联

我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer，扩展了 ScanRefer 数据集和任务，并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外，我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案，构建了更好的基准线，该基准线在 ScanRefer 基准测试上超越了最新技术。

Sep, 2023

3D 视觉定位的双属性空间关系对齐

提出了 DASANet，一种用于模型属性和空间关系特征的双重对齐网络，能够实现在语言和 3D 视觉模态之间建立联系，提高基于 3D 视觉的定位准确性。

Jun, 2024

TransRefer3D：面向细粒度 3D 视觉 grounding 的实体 - 关系感知 Transformer

本文提出了一种基于 Transformer 的 TransRefer3D 网络，利用实体和关系感知的多模态上下文提取模块，通过协同注意力操作进行跨模态匹配，构建了逐层的多模态上下文模型，从而在细粒度 3D 视觉定位任务中实现了学习出更具区分度的特征，并在实验中取得领先的性能。

Aug, 2021

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

利用 GPT 和原型指导的多视角知识获取用于 3D 视觉定位

ViewRefer 是一个用于 3D 视觉定位的多视角框架，可以在文本和 3D 两种模态下获取视觉知识，提出了一种可学习的多视角原型来记忆不同视角下的场景通用知识，同时还利用视角引导的注意力模块以及最终预测中的视角引导评分策略，实现了对三个基准测试的表现优于现有技术，并且超过了第二名的 + 2.8％、+1.2％和 + 0.73％。

Mar, 2023

基于自由形式描述导向的点云物体 grounding 的三维视觉图网络

本篇论文提出了基于自由文本语言描述的三维物体定位方法，通过引入多个图模型来解决不同挑战。经过在挑战类数据集上的多次测试，结果表明我们所提出的算法优于现有最先进技术。

Mar, 2021

蒸馏粗粒到精粒语义匹配知识用于弱监督的三维视觉接地

利用弱监督注释学习 3D 视觉定位模型，通过分析对象提案和句子之间的语义相似性，我们构建了一个语义匹配模型，将粗粒度的场景 - 句子对应关系用于学习目标 - 句子链接。同时，我们将粗精度的语义匹配知识融入经典的两阶段 3D 视觉定位模型，以减少推理成本并提高性能。通过在 ScanRefer、Nr3D 和 Sr3D 上进行广泛实验证明了我们提出方法的有效性。

Jul, 2023

DOrA：具有顺序感的三维视觉连接

DOrA 是一个使用大型语言模型的 3D 视觉指向框架，通过引入有序锚定对象，更新视觉特征并定位目标对象，在低资源和全数据场景下表现出超越当前最先进框架的优越性，分别在 1％数据和 10％数据设置下将基准提高了 9.3％和 7.8％的准确率。

Mar, 2024

3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

提出了 3D-VisTA，一个用于 3D 视觉和文本对齐的预训练 Transformer 模型，可轻松适应各种下游任务，通过在 ScanScribe 数据集上进行预训练，获得了在各种 3D-VL 任务上的最先进结果，同时展示了出色的数据效率。

Aug, 2023