大规模合成数据的三维视觉和语言预训练

Jul, 2024

大规模合成数据的三维视觉和语言预训练

3D Vision and Language Pretraining with Large-Scale Synthetic Data

Dejie Yang, Zhu Xu, Wentao Mo, Qingchao Chen, Siyuan Huang...

TL;DR3D视觉语言预训练（3D-VLP）旨在提供一个可以将3D场景与自然语言联系起来的预训练模型，这是一种重要的体验式智能技术。通过构建SynVL3D，我们克服了有限的场景多样性和不足的细粒度注释的障碍，在室内场景中创建了一个包含10K个场景和1M个描述的全面的合成场景文本语料库，具有多样的场景数据、丰富的文本描述、多粒度的3D-文本关联以及低采集成本。利用SynVL3D中的丰富注释，我们预训练了一个简单而统一的Transformer，用于对齐3D和语言，并在下游任务微调过程中提出了一个从合成到真实领域的自适应方法来解决领域转移问题。通过大量实验证明了我们模型设计的有效性，取得了在视觉定位、密集字幕和问答等下游任务中的最新成果。

Abstract

3d vision-language pre-training (3D-VLP) aims to provide a pre-train model which can bridge 3D scenes with natural language, which is an important technique for embodied intelligence. However, current 3D-VLP data

发现论文，激发创造

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了SimVLM获得了强大的泛化和转移能力，实现了零-shot行为。

Aug, 2021

基于物体对比学习的视觉-语言预训练技术在三维场景理解中的应用

本文提出了一种3D视觉语言预训练框架3DVLP，可以在3D视觉语言下游任务中有很好的表现，该框架考虑了场景中物体的关联性，提出了多个任务来实现对象级交叉对齐和区分，与任务特定方法相比具有更好的泛化性能。

May, 2023

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的3D-LLMs，将3D世界引入大型语言模型，并利用3D point clouds进行各种3D相关任务，通过我们设计的提示机制收集了超过300k的3D语言数据，实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法，并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。

Jul, 2023

3D-VisTA: 预训练的Transformer用于3D视觉和文本对齐

提出了3D-VisTA，一个用于3D视觉和文本对齐的预训练Transformer模型，可轻松适应各种下游任务，通过在ScanScribe数据集上进行预训练，获得了在各种3D-VL任务上的最先进结果，同时展示了出色的数据效率。

Aug, 2023

Lang3DSG: 基于语言的对比预训练用于3D场景图预测

我们提出了第一个针对3D场景图的基于语言的预训练方法，利用了场景图和语言之间的强关联，通过对比性预训练将文本嵌入关系和预测的3D图特征进行对齐，最终实现了在主要语义3D场景图基准上的效果最优，超过现有全监督场景图预测方法的显著边缘，并且由于场景图特征与语言对齐，允许我们以零样本的方式查询特征的语言空间。

Oct, 2023

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将3D视觉语言学习在室内环境中进行有序提升，本研究旨在解决3D视觉语言面临的三个主要挑战，包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对，展示了Grounded Pre-training for Scenes (GPS)的有效性，通过在所有现有的3D视觉定位基准上取得了最先进的性能，并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。

Jan, 2024

Swin3D++：3D 室内场景理解的有效多源预训练

在本研究中，我们发现了3D室内场景数据集之间的领域差异的主要来源，并提出了基于Swin3D的增强架构Swin3D++，用于对多源3D点云进行高效预训练。Swin3D++引入了领域特定机制来解决领域差异，并增强了在多源预训练中的网络能力。此外，我们设计了一种简单的源增强策略来增加预训练数据规模并促进监督预训练。我们验证了我们的设计的有效性，并展示了Swin3D++在典型室内场景理解任务上超越了最先进的3D预训练方法。

Feb, 2024

三维视觉语言模型真正理解自然语言吗?

3D-VL模型面临语言输入样式的敏感性，本研究通过提出一个语言鲁棒性任务和设计3D语言鲁棒性数据集评估现有模型的性能，在各种3D-VL任务中发现所有模型性能显著下降。现有模型存在脆弱和偏置的融合模块，缺乏多样性的现有数据集是其根源，最后通过由LLM驱动的无需训练模块来提高语言鲁棒性。

Mar, 2024

通过提问实现三维视觉与语言理解的统一化

通过统一各种三维场景表示方法，使用可提示的查询（Promptable Queries）解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型（PQ3D）。在十个多样化的三维视觉语言数据集上进行测试，PQ3D在这些任务中表现出令人印象深刻的性能，并在大多数基准测试中创造了新记录。

May, 2024

MMScan：多模态3D场景数据集与分层语义标注

建立了首个最大的多模态三维场景数据集与基准，并通过层次语言注释进行了多模态三维感知研究，为领域相关问题提供了重要的资源。

Jun, 2024