Jan, 2024

SceneVerse:面向基于场景的三维视觉语言学习的规模化

TL;DR通过系统性地将 3D 视觉语言学习在室内环境中进行有序提升,本研究旨在解决 3D 视觉语言面临的三个主要挑战,包括复杂的 3D 场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约 68K 个 3D 室内场景的场景语料库 SceneVerse 以及基于可扩展的场景图生成方法获取的约 2.5M 个视觉语言对,展示了 Grounded Pre-training for Scenes (GPS) 的有效性,通过在所有现有的 3D 视觉定位基准上取得了最先进的性能,并在具有挑战性的 3D 视觉语言任务的零样本迁移实验中揭示了 SceneVerse 和 GPS 的巨大潜力。