Feb, 2024

VEnvision3D:用于三维多任务模型研究的合成感知数据集

TL;DR开发一个统一的多任务基础模型已经成为计算机视觉研究中的一个关键挑战。本论文介绍了 VEnvision3D,一个用于多任务学习的大型 3D 合成感知数据集,包括深度补全、分割、上采样、场景识别和 3D 重建。对于每个任务的数据在相同场景下收集,使得任务在所使用的数据上本质上具有对齐的特点,从而可以探索多任务模型甚至基础模型的潜力。基于所提出数据集的特点,提出了几个新的基准测试,对端到端模型进行了广泛研究,揭示了未来研究的新观察、挑战和机会。此外,设计了一个简单的多任务网络,以展示 VEnvision3D 对基础模型可以提供的能力。我们的数据集和代码将在接受后开源。