三维点云视觉锚定的统一框架

Aug, 2023

A Unified Framework for 3D Point Cloud Visual Grounding

Haojia Lin, Yongdong Luo, Xiawu Zheng, Lijiang Li, Fei Chao...

TL;DR3D point cloud visual grounding encompasses 3D referring expression comprehension (3DREC) and segmentation (3DRES), and this paper proposes a unified framework called 3D Referring Transformer (3DRefTR) that integrates 3DREC and 3DRES, achieving superior performance on the ScanRefer dataset.

Abstract

3d point cloud visual grounding plays a critical role in 3D scene comprehension, encompassing 3D referring expression comprehension (3drec) and segmentation (→

3d point cloud visual grounding 3d scene comprehension 3drec 3dres 3d referring transformer (3dreftr)

发现论文，激发创造

InstanceRefer: 基于实例多级语境参考的点云视觉定位合作全面理解

本文提出了一种名为 InstanceRefer 的模型，该模型利用语言描述实现目标类别预测，从 3D 点云的广义实例分割中筛选出少量实例候选项，利用多级语境推理和多层次特征匹配来实现最相关候选项的选择和定位，从而实现了优越的 3D 视觉定位结果

Mar, 2021

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

TransRefer3D：面向细粒度 3D 视觉 grounding 的实体 - 关系感知 Transformer

本文提出了一种基于 Transformer 的 TransRefer3D 网络，利用实体和关系感知的多模态上下文提取模块，通过协同注意力操作进行跨模态匹配，构建了逐层的多模态上下文模型，从而在细粒度 3D 视觉定位任务中实现了学习出更具区分度的特征，并在实验中取得领先的性能。

Aug, 2021

揭示超越物体的部分：迈向更精细的指代表达分割

提出了一种多层次指代表达式分割任务 (MRES)，构建了一个评估基准 RefCOCOm 和一个规模为 32.2M 的高质量数据集 MRES-32M，设计了 UniRES 模型完成统一的对象级和部分级视觉对齐任务，通过在 RefCOCOm、RefCOCO (+/g) 等数据集上的实验证明了该方法的优越性。

Dec, 2023

统一场景表示和重建用于三维大型语言模型

本研究通过引入 Uni3DR^2 提取 3D 几何和语义感知表示特征的统一场景表示和重建框架，证明了该框架对于大型语言模型在 3D 场景中的重要性，并在多个实验中取得了令人信服的结果。

Apr, 2024

CoT3DRef: 链状思考数据高效 3D 视觉定位

设计一种可解释的 3D 视觉定位框架，通过预测一系列锚点和最终目标，将 3D 视觉定位问题形式化为序列到序列任务，将指称任务分解为可解释的中间步骤，从而提高性能并极大地提高数据效率。

Oct, 2023

基于 RGB-D 的自底向上的 3D 图像视觉定位方法

本文提出一种用于单视角 RGBD 图像的三维视觉定位的新方法，该方法采用从底层融合语言和视觉特征生成热图的方式来粗略定位相关区域，然后通过自适应特征学习和对象级匹配，并结合另一种视觉语言融合来最终定位被引用的对象。该方法在 ScanRefer 数据集和 SUNRefer 数据集上的实验证明，与现有方法相比，在两个数据集上均取得了较大的 [email protected] 提升（分别提升 11.2% 和 15.6%）。

Mar, 2021

3D-SPS: 通过参考点逐步选择实现单阶段 3D 视觉定位

本文提出了一种基于语言指引的关键点选择方法，用于 3D 点云场景中的目标定位，并在实验中展示了其在 ScanRefer 和 Nr3D/Sr3D 数据集上达到了最先进的性能。

Apr, 2022

文本和 3D 点云的联合表示学习

本文提出了一种新型的 Text4Point 框架，通过利用 2D 图像作为连接点云和语言模态的桥梁，建立图像和点云的对应关系，从而通过对比学习将其对齐；并进一步引入文本查询模块，查询点云特征的文本嵌入，将语言信息整合到 3D 表示学习中，提高各种下游任务的性能。

Jan, 2023

3D-STMN: 基于依赖驱动的超点 - 文本匹配网络用于端到端 3D 引用表达式分割

3D-RES 中，采用了一个创新的端到端 Superpoint-Text Matching Network (3D-STMN)，该网络通过依赖驱动的洞察力丰富而充实。我们的模型具有超点文本匹配机制，该机制通过将语言指示与其对应的类别超点直接相关联，实现了跨模态语义关系的高效利用，并且进一步引入了依赖驱动交互模块来提升模型对指代表达的语义理解，从而提升模型的本地化和分割能力。在 ScanRefer 基准上的综合实验结果表明，我们的模型不仅取得了新的性能标准，在 mIoU 方面提升了 11.7 个百分点，而且速度提升惊人，超过传统方法 95.7 倍。

Aug, 2023