TransRefer3D：面向细粒度 3D 视觉 grounding 的实体 - 关系感知 Transformer

MMAug, 2021

TransRefer3D：面向细粒度 3D 视觉 grounding 的实体 - 关系感知 Transformer

TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding

Dailan He, Yusheng Zhao, Junyu Luo, Tianrui Hui, Shaofei Huang...

TL;DR本文提出了一种基于 Transformer 的 TransRefer3D 网络，利用实体和关系感知的多模态上下文提取模块，通过协同注意力操作进行跨模态匹配，构建了逐层的多模态上下文模型，从而在细粒度 3D 视觉定位任务中实现了学习出更具区分度的特征，并在实验中取得领先的性能。

Abstract

Recently proposed fine-grained 3d visual grounding is an essential and challenging task, whose goal is to identify the 3D object referred by a natural language sentence from other distractive objects of the same category. Existing works usually adopt dynamic graph networks to indirectl

fine-grained 3d visual grounding transformer entity-and-relation aware multimodal context transrefer3d network discriminative feature learning

发现论文，激发创造

三维视觉对接的多视图 Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

深度监督的多模态注意力翻译嵌入在视觉关系检测中的应用

本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型，该模型使用多模态关注机制驱动每个分支的视觉特征，并在常用的 VRD 数据集上的实验表明，该方法明显优于其他相关方法。

Feb, 2019

EDA: 三维视觉引导的显式文本解耦和密集对齐

本研究提出 EDA 方法，通过文本解耦和密集对齐技术实现了 3D 点云中丰富语义描述的物体检索，并在已有数据集上实现了最优结果，并在新提出的任务上取得了绝对领先。

Sep, 2022

3D 视觉定位的双属性空间关系对齐

提出了 DASANet，一种用于模型属性和空间关系特征的双重对齐网络，能够实现在语言和 3D 视觉模态之间建立联系，提高基于 3D 视觉的定位准确性。

Jun, 2024

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

视觉关系检测和场景图生成的上下文翻译嵌入

提出一种基于 VTransE 方法的上下文增强翻译嵌入模型，可以捕捉常见和罕见关系，进而提升图像理解能力。该模型可以有效地识别已知关系和未知关系，同时在多个基准测试中取得了优秀的表现，特别是在场景图生成任务中表现尤为突出。

May, 2019

三维点云视觉锚定的统一框架

3D point cloud visual grounding encompasses 3D referring expression comprehension (3DREC) and segmentation (3DRES), and this paper proposes a unified framework called 3D Referring Transformer (3DRefTR) that integrates 3DREC and 3DRES, achieving superior performance on the ScanRefer dataset.

Aug, 2023

DOrA：具有顺序感的三维视觉连接

DOrA 是一个使用大型语言模型的 3D 视觉指向框架，通过引入有序锚定对象，更新视觉特征并定位目标对象，在低资源和全数据场景下表现出超越当前最先进框架的优越性，分别在 1％数据和 10％数据设置下将基准提高了 9.3％和 7.8％的准确率。

Mar, 2024

CoT3DRef: 链状思考数据高效 3D 视觉定位

设计一种可解释的 3D 视觉定位框架，通过预测一系列锚点和最终目标，将 3D 视觉定位问题形式化为序列到序列任务，将指称任务分解为可解释的中间步骤，从而提高性能并极大地提高数据效率。

Oct, 2023

3DRP-Net: 三维相对位置感知网络用于三维视觉对接

本研究提出了一种名为 3DRP-Net 的关系感知单阶段框架，能够有效捕捉物体之间的相对空间关系，并增强物体属性。通过分析对象对之间的相对关系和减少冗余点引起的空间模糊性，我们的方法在三个基准测试中均优于所有现有的方法。

Jul, 2023