X-Trans2Cap：使用 Transformer 进行跨模态知识转移的 3D 密集字幕生成

CVPRMar, 2022

X-Trans2Cap：使用 Transformer 进行跨模态知识转移的 3D 密集字幕生成

X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning

Zhihao Yuan, Xu Yan, Yinghong Liao, Yao Guo, Guanbin Li...

TL;DR本研究提出一种名为 X-Trans2Cap 的 3D 密集字幕生成模型，通过跨模态知识转移实现对单模态 3D 字幕生成性能的有效提升，该模型使用 Transformer，并采用师生框架来构建。在实验中，通过对特征进行对齐和融合，提出的方法不仅能够快速地获取 2D 图像中的丰富且嵌入式的外观信息，而且能够在仅仅使用点云作为输入时生成更加忠实的描述性字幕。定性和定量结果证实，X-Trans2Cap 在 ScanRefer 和 Nr3D 数据集上的性能优于现有的最先进水平，分别提高了约 + 21 和约 + 16 absolute CIDEr 分数。

Abstract

3d dense captioning aims to describe individual objects by natural language in 3D scenes, where 3D scenes are usually represented as RGB-D scans or point clouds. However, only exploiting single modal information, e.g., point cloud, previous approaches fail to produce faithful descripti

3d dense captioning transformer cross-modal knowledge transfer teacher-student framework point clouds

发现论文，激发创造

基于空间导向的点云 3D 密集描述 Transformer

该研究提出了一种基于 transformer 的 encoder-decoder 结构的 3D 密集描述方法，包含相对空间感知机制，可以精准地为 3D 场景中的每个场景对象实现目标检测和自然语言描述生成。在两个基准数据集 ScanRefer 和 ReferIt3D 上，该方法均优于基线模型 Scan2Cap。

Apr, 2022

Scan2Cap：RGB-D 扫描中基于上下文的密集字幕生成

本文介绍了使用 Scan2Cap 方法对 3D 扫描中的物体进行检测和描述，在生成的描述中使用注意力机制和消息传递图模块，取得了显著的性能提升。

Dec, 2020

X4D-SceneFormer: 通过跨模态知识迁移增强 4D 点云视频的场景理解

4D 点云理解领域中的 X4D-SceneFormer 框架通过跨模态知识传递和 Transformer 架构的时间关系挖掘，增强了 4D 场景理解，在动作识别和语义分割等各种 4D 点云视频理解任务中取得了卓越的性能，超过了最新技术水平。

Dec, 2023

Vote2Cap-DETR++：解耦定位与描述的端到端三维稠密字幕

通过并行解码，Vote2Cap-DETR 提出了一种将对象定位和描述生成解耦的简单而有效的变压器框架，以及引入了迭代空间精细化策略和额外的空间信息来提高定位性能和准确描述，实验证明其优于常规的 “检测然后描述” 的方法。

Sep, 2023

3D 密集字幕的全面调查：定位和描述 3D 场景中的物体

3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务，旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述，涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献，我们提炼了一个作为现有方法共同范例的标准流程，并提出了一种清晰的现有模型分类方法，并总结了不同模块中涉及的技术，并进行了详细的实验分析。同时，我们也提出了一系列有前景的 3D 密集图像描述的未来方向，并将其与相关任务的发展相结合，为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解，促进进一步的研究，并在多媒体和相关领域的新应用的发展中做出贡献。

Mar, 2024

利用基于 Transformer 的框架提高图像字幕生成的深度信息

本研究通过整合 RGB 图像与深度信息进行图像描述，提出了一种基于 Transformer 编码 - 解码框架生成 3D 场景多句描述的方法，并在 NYU-v2 和斯坦福图像段落描述数据集上进行了实验，结果表明深度信息可以提高图像描述的效果。

Jul, 2023

跨模态和跨域知识迁移对无标签 3D 分割

通过探索图像和点云之间的关系并设计有效的特征对齐策略，我们提出了一种新颖的方法来解决具有挑战性的跨模态和跨域自适应任务，在没有任何 3D 标签的情况下，我们的方法利用 KITTI360 和 GTA5 的知识，在 SemanticKITTI 上达到了 3D 点云语义分割的最先进性能，相比现有的无监督和弱监督基准。

Sep, 2023

TOD3Cap: 面向户外场景的三维密集描述

室外三维密集字幕生成中存在诸多挑战，如室内和室外场景之间的领域差异、数据匮乏等，本文提出了室外三维密集字幕生成的新任务，并引入使用 BEV 表示的 TOD3Cap 网络来生成物体边界框和丰富的字幕，通过 TOD3Cap 数据集进行评估，结果表明我们的网络在室外场景中能够有效地定位和生成字幕，比基线方法有显著提升（+9.6 [email protected]）。

Mar, 2024

CAT-Det: 多模式三维物体检测的对比增强变换器

提出了一种新的多模态三维物体检测方法 - CAT-Det，将深度学习和对比学习相结合，更好地利用 LiDAR 和 RGB 图像之间的互补信息来提高检测准确性。

Apr, 2022

带有预训练模型的可扩展三维标题生成

Cap3D 是一种自动生成三维物体描述的方法，利用图像字幕、图像文本对齐和 LLM 的预训练模型，从多个视角的 3D 资源中整合标题，既提高了效率又降低了成本，并在大规模 3D 数据集 Objaverse 上实现了 660k 3D 文本对。通过有效的提示工程，Cap3D 在 ABO 数据集的 17k 个收集的注释中产生几何描述并与人类表现不相上下。在 Cap3D 和人类字幕上调整 Text-to-3D 模型，并展示 Cap3D 优于 Point-E、Shape-E 和 DreamFusion，是一项值得关注的自动化方法。

Jun, 2023