带有预训练模型的可扩展三维标题生成

Jun, 2023

带有预训练模型的可扩展三维标题生成

Scalable 3D Captioning with Pretrained Models

Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson

TL;DRCap3D 是一种自动生成三维物体描述的方法，利用图像字幕、图像文本对齐和 LLM 的预训练模型，从多个视角的 3D 资源中整合标题，既提高了效率又降低了成本，并在大规模 3D 数据集 Objaverse 上实现了 660k 3D 文本对。通过有效的提示工程，Cap3D 在 ABO 数据集的 17k 个收集的注释中产生几何描述并与人类表现不相上下。在 Cap3D 和人类字幕上调整 Text-to-3D 模型，并展示 Cap3D 优于 Point-E、Shape-E 和 DreamFusion，是一项值得关注的自动化方法。

Abstract

We introduce cap3d, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from

cap3d 3d object image captioning dataset text-to-3d models

发现论文，激发创造

基于扩散排序的 3D 字幕观点选择

利用 DiffuRank 方法解决了在 3D 物体描述中产生错觉的问题，通过排名评估 2D 渲染视图与 3D 物体之间的对齐，提高了标题的准确性和细节，并在多个数据集上验证了其适用性。

Apr, 2024

基于空间导向的点云 3D 密集描述 Transformer

该研究提出了一种基于 transformer 的 encoder-decoder 结构的 3D 密集描述方法，包含相对空间感知机制，可以精准地为 3D 场景中的每个场景对象实现目标检测和自然语言描述生成。在两个基准数据集 ScanRefer 和 ReferIt3D 上，该方法均优于基线模型 Scan2Cap。

Apr, 2022

3D 密集字幕的全面调查：定位和描述 3D 场景中的物体

3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务，旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述，涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献，我们提炼了一个作为现有方法共同范例的标准流程，并提出了一种清晰的现有模型分类方法，并总结了不同模块中涉及的技术，并进行了详细的实验分析。同时，我们也提出了一系列有前景的 3D 密集图像描述的未来方向，并将其与相关任务的发展相结合，为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解，促进进一步的研究，并在多媒体和相关领域的新应用的发展中做出贡献。

Mar, 2024

Scan2Cap：RGB-D 扫描中基于上下文的密集字幕生成

本文介绍了使用 Scan2Cap 方法对 3D 扫描中的物体进行检测和描述，在生成的描述中使用注意力机制和消息传递图模块，取得了显著的性能提升。

Dec, 2020

TOD3Cap: 面向户外场景的三维密集描述

室外三维密集字幕生成中存在诸多挑战，如室内和室外场景之间的领域差异、数据匮乏等，本文提出了室外三维密集字幕生成的新任务，并引入使用 BEV 表示的 TOD3Cap 网络来生成物体边界框和丰富的字幕，通过 TOD3Cap 数据集进行评估，结果表明我们的网络在室外场景中能够有效地定位和生成字幕，比基线方法有显著提升（+9.6 [email protected]）。

Mar, 2024

自然语言描述生成高保真 3D 人脸

本研究提出了一种基于自然语言描述生成高质量三维人脸模型的方法，通过建立 Describe3D 数据集以及使用两阶段框架来解决描述语言空间与形状 / 外观空间映射关系的问题，并且实验结果表明，该方法可以以比以往更高的精度和质量生成符合输入描述的三维人脸。

May, 2023

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

Instant3D：即时文本到三维生成

提出了一种新的基于文本的 3D 生成框架，名为 Instant3D，使用前向网络在不到一秒的时间内为未见的文本提示创建一个 3D 对象，并解决了 Janus 问题的多头效应。

Nov, 2023

Chat-3D：数据高效调整大型语言模型，用于 3D 场景的通用对话

本文介绍了 Chat-3D，它通过将预训练的 3D 表示与先进的 LLM 的推理和对话能力相结合，实现了首个用于 3D 场景的通用对话系统。 Chat-3D 能够感知 3D 世界，具备理解各种 3D 场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上，Chat-3D 相对于 GPT-4 获得了相对得分 75.6%。

Aug, 2023

X-Trans2Cap：使用 Transformer 进行跨模态知识转移的 3D 密集字幕生成

本研究提出一种名为 X-Trans2Cap 的 3D 密集字幕生成模型，通过跨模态知识转移实现对单模态 3D 字幕生成性能的有效提升，该模型使用 Transformer，并采用师生框架来构建。在实验中，通过对特征进行对齐和融合，提出的方法不仅能够快速地获取 2D 图像中的丰富且嵌入式的外观信息，而且能够在仅仅使用点云作为输入时生成更加忠实的描述性字幕。定性和定量结果证实，X-Trans2Cap 在 ScanRefer 和 Nr3D 数据集上的性能优于现有的最先进水平，分别提高了约 + 21 和约 + 16 absolute CIDEr 分数。

Mar, 2022