3D 视觉定位的双属性空间关系对齐

Jun, 2024

3D 视觉定位的双属性空间关系对齐

Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding

Yue Xu, Kaizhi Yang, Jiebo Luo, Xuejin Chen

TL;DR提出了 DASANet，一种用于模型属性和空间关系特征的双重对齐网络，能够实现在语言和 3D 视觉模态之间建立联系，提高基于 3D 视觉的定位准确性。

Abstract

3d visual grounding is an emerging research area dedicated to making connections between the 3D physical world and natural language, which is crucial for achieving embodied intelligence. In this paper, we propose

3d visual grounding dasanet embodied intelligence attribute-spatial feature fusion grounding accuracy

发现论文，激发创造

3DRP-Net: 三维相对位置感知网络用于三维视觉对接

本研究提出了一种名为 3DRP-Net 的关系感知单阶段框架，能够有效捕捉物体之间的相对空间关系，并增强物体属性。通过分析对象对之间的相对关系和减少冗余点引起的空间模糊性，我们的方法在三个基准测试中均优于所有现有的方法。

Jul, 2023

DOrA：具有顺序感的三维视觉连接

DOrA 是一个使用大型语言模型的 3D 视觉指向框架，通过引入有序锚定对象，更新视觉特征并定位目标对象，在低资源和全数据场景下表现出超越当前最先进框架的优越性，分别在 1％数据和 10％数据设置下将基准提高了 9.3％和 7.8％的准确率。

Mar, 2024

EDA: 三维视觉引导的显式文本解耦和密集对齐

本研究提出 EDA 方法，通过文本解耦和密集对齐技术实现了 3D 点云中丰富语义描述的物体检索，并在已有数据集上实现了最优结果，并在新提出的任务上取得了绝对领先。

Sep, 2022

SAT: 2D 语义辅助的 3D 视觉定位训练

该研究提出了 2D Semantics Assisted Training（SAT）来提高 3D 视觉定位的准确性，通过学习丰富，干净的 2D 对象表示与 3D 场景中的对象或提到的实体之间的对齐关系，辅助 3D 视觉定位，将 2D 语义有效地利用于训练，使方法在 3D 视觉定位数据集上的准确性从 37.7％提高到 49.2％，并且在多个 3D 视觉定位数据集上均优于同类方法。

May, 2021

具有韧性和可解释性的关系网络空间参考基础

本论文提出一种文本条件化的关系网络模型，通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系，从而实现对文本中空间参照的理解，具有可解释性和鲁棒性，在三个任务中实现了 17% 和 15% 的表现改进，从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。

May, 2020

TransRefer3D：面向细粒度 3D 视觉 grounding 的实体 - 关系感知 Transformer

本文提出了一种基于 Transformer 的 TransRefer3D 网络，利用实体和关系感知的多模态上下文提取模块，通过协同注意力操作进行跨模态匹配，构建了逐层的多模态上下文模型，从而在细粒度 3D 视觉定位任务中实现了学习出更具区分度的特征，并在实验中取得领先的性能。

Aug, 2021

NS3D: 三维物体和关系的神经符号基础

本文提出了 NS3D 三维场景认知神经符号框架，通过使用基于大规模语言编程模型的层级结构来将语言翻译为程序，不同的功能模块实现为神经网络，并引入管高度关系的功能模块有效地推理复杂场景中物体之间的关系，在数据效率和泛化方面表现出色，在 3D 视角相关任务 ReferIt3D 上获得了最先进的结果。

Mar, 2023

GraNet：针对 ALS 点云分类的全局关系感知注意力网络

本论文提出一种新型神经网络用于对 ALS 点云进行语义标注，名为全局关系感知注意网络 (GraNet)，该方法首先使用一个本地空间注意卷积模块 (LoSDA) 学习本地几何描述和本地依赖关系，然后使用全局关系感知注意模块 (GRA) 学习任何空间位置和特征向量之间的全局空间和通道关系，以上两个重要模块嵌入多尺度网络架构中，实验结果表明，与其他常用高级分类方法相比，我们的方法在两个 ALS 点云数据集上均可获得更高的分类精度。

Dec, 2020

基于视觉语义对齐的弱监督三维视觉定位

基于大规模视觉 - 语言模型的弱监督学习方法，利用 2D 图像和 3D 点云之间天然存在的对应关系，无需精细标注的边界框注释，通过学习文本 - 3D 对应，实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明，3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。

Dec, 2023

使用图形注意力学习图像文本匹配的双重语义关系

本文提出了一种名为双重语义关系注意力网络 (DSRAN) 的新型图注意力方法，该方法主要由两个模块组成，分别进行不同层次的语义关系学习，从而提高图像文本匹配的准确性，并在 MS-COCO 和 Flickr30K 数据集上取得了显著优于以往方法的效果。

Oct, 2020