TOD3Cap: 面向户外场景的三维密集描述

Mar, 2024

TOD3Cap: 面向户外场景的三维密集描述

TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes

Bu Jin, Yupeng Zheng, Pengfei Li, Weize Li, Yuhang Zheng...

TL;DR室外三维密集字幕生成中存在诸多挑战，如室内和室外场景之间的领域差异、数据匮乏等，本文提出了室外三维密集字幕生成的新任务，并引入使用 BEV 表示的 TOD3Cap 网络来生成物体边界框和丰富的字幕，通过 TOD3Cap 数据集进行评估，结果表明我们的网络在室外场景中能够有效地定位和生成字幕，比基线方法有显著提升（+9.6 [email protected]）。

Abstract

3d dense captioning stands as a cornerstone in achieving a comprehensive understanding of 3D scenes through natural language. It has recently witnessed remarkable achievements, particularly in indoor settings. However, the exploration of →

3d dense captioning outdoor scenes domain gap lack of data tod3cap network

发现论文，激发创造

基于空间导向的点云 3D 密集描述 Transformer

该研究提出了一种基于 transformer 的 encoder-decoder 结构的 3D 密集描述方法，包含相对空间感知机制，可以精准地为 3D 场景中的每个场景对象实现目标检测和自然语言描述生成。在两个基准数据集 ScanRefer 和 ReferIt3D 上，该方法均优于基线模型 Scan2Cap。

Apr, 2022

3D 密集字幕的全面调查：定位和描述 3D 场景中的物体

3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务，旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述，涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献，我们提炼了一个作为现有方法共同范例的标准流程，并提出了一种清晰的现有模型分类方法，并总结了不同模块中涉及的技术，并进行了详细的实验分析。同时，我们也提出了一系列有前景的 3D 密集图像描述的未来方向，并将其与相关任务的发展相结合，为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解，促进进一步的研究，并在多媒体和相关领域的新应用的发展中做出贡献。

Mar, 2024

Scan2Cap：RGB-D 扫描中基于上下文的密集字幕生成

本文介绍了使用 Scan2Cap 方法对 3D 扫描中的物体进行检测和描述，在生成的描述中使用注意力机制和消息传递图模块，取得了显著的性能提升。

Dec, 2020

带有预训练模型的可扩展三维标题生成

Cap3D 是一种自动生成三维物体描述的方法，利用图像字幕、图像文本对齐和 LLM 的预训练模型，从多个视角的 3D 资源中整合标题，既提高了效率又降低了成本，并在大规模 3D 数据集 Objaverse 上实现了 660k 3D 文本对。通过有效的提示工程，Cap3D 在 ABO 数据集的 17k 个收集的注释中产生几何描述并与人类表现不相上下。在 Cap3D 和人类字幕上调整 Text-to-3D 模型，并展示 Cap3D 优于 Point-E、Shape-E 和 DreamFusion，是一项值得关注的自动化方法。

Jun, 2023

Vote2Cap-DETR++：解耦定位与描述的端到端三维稠密字幕

通过并行解码，Vote2Cap-DETR 提出了一种将对象定位和描述生成解耦的简单而有效的变压器框架，以及引入了迭代空间精细化策略和额外的空间信息来提高定位性能和准确描述，实验证明其优于常规的 “检测然后描述” 的方法。

Sep, 2023

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

3DGCTR 是一个统一的框架，通过重新考虑 3DVG 模型的基于提示的定位能力，将轻量级字幕头集成到现有的 3DVG 网络中，通过提取提示中的定位信息，有效地提升了 3DDC 的能力，实现了同时进行多任务训练，互相增强性能。

Apr, 2024

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

X-Trans2Cap：使用 Transformer 进行跨模态知识转移的 3D 密集字幕生成

本研究提出一种名为 X-Trans2Cap 的 3D 密集字幕生成模型，通过跨模态知识转移实现对单模态 3D 字幕生成性能的有效提升，该模型使用 Transformer，并采用师生框架来构建。在实验中，通过对特征进行对齐和融合，提出的方法不仅能够快速地获取 2D 图像中的丰富且嵌入式的外观信息，而且能够在仅仅使用点云作为输入时生成更加忠实的描述性字幕。定性和定量结果证实，X-Trans2Cap 在 ScanRefer 和 Nr3D 数据集上的性能优于现有的最先进水平，分别提高了约 + 21 和约 + 16 absolute CIDEr 分数。

Mar, 2022

在 3D 环境中探索与描述：基于身体感知的视觉字幕生成

当前的视觉说明模型假设图像是完整呈现场景的完美捕捉，然而在真实世界场景中一个图像可能没有提供良好的视角，从而限制了对细粒度场景的理解。为了克服这一限制，我们提出了一项名为 “实体说明” 的新任务，将视觉说明模型与导航能力相结合，使其能够主动探索场景，并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集，以支持该任务。我们提出了一个级联实体说明模型（CaBOT），它由导航器和说明器组成，用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。

Aug, 2023

Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解

通过使用视觉 - 语言（VL）基础模型，将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉 - 语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在 3D 语义、实例和全景分割任务中获得显著的改进。

Aug, 2023