Jul, 2024

大规模合成数据的三维视觉和语言预训练

TL;DR3D视觉语言预训练(3D-VLP)旨在提供一个可以将3D场景与自然语言联系起来的预训练模型,这是一种重要的体验式智能技术。通过构建SynVL3D,我们克服了有限的场景多样性和不足的细粒度注释的障碍,在室内场景中创建了一个包含10K个场景和1M个描述的全面的合成场景文本语料库,具有多样的场景数据、丰富的文本描述、多粒度的3D-文本关联以及低采集成本。利用SynVL3D中的丰富注释,我们预训练了一个简单而统一的Transformer,用于对齐3D和语言,并在下游任务微调过程中提出了一个从合成到真实领域的自适应方法来解决领域转移问题。通过大量实验证明了我们模型设计的有效性,取得了在视觉定位、密集字幕和问答等下游任务中的最新成果。