Objaverse-XL: 一个拥有超过 1000 万个三维物体的宇宙
UniG3D 是一个统一的 3D 对象生成数据集,采用 Objaverse 和 ShapeNet 数据集的通用数据转换管道,并使用渲染引擎和多模态模型将每个原始的 3D 模型转换成包含文本、图像、点云和网格的综合多模态数据表示,该数据集可应用于任何 3D 数据集中。
Jun, 2023
我们提出了 LRM-Zero,它是一个完全基于合成 3D 数据进行训练的大型重建模型,可以实现高质量的稀疏视角 3D 重建。LRM-Zero 的核心是我们的程序化 3D 数据集 Zeroverse,它是通过简单的基本形状进行自动合成,并进行随机纹理和增强处理(例如,高度场、布尔差异和线框)。与前期的 3D 数据集(例如 Objaverse)不同,Zeroverse 完全忽略了现实全局语义,但在复杂的几何和纹理细节上与真实物体局部相似甚至更加复杂。我们证明了我们的 LRM-Zero,在使用我们完全合成的 Zeroverse 进行训练时,可以在重建真实世界对象方面达到与使用 Objaverse 训练的模型竞争性的高视觉质量。我们还分析了对于 LRM-Zero 的能力和训练稳定性有贡献的 Zeroverse 的几个关键设计选择。我们的工作表明,作为 3D 视觉的核心任务之一,可能可以不考虑真实世界物体的语义来解决 3D 重建问题。Zeroverse 的程序化合成代码和交互式可视化可在此 URL 中获取。
Jun, 2024
提出了一个名为 Omni3D 的大型测试数据集,其中包含 234k 个图像,涵盖了 98 个类别和 300 万个实例。引入了 Cube R-CNN 模型,能够更好地检测和识别 3D 场景和物体。该数据集可用于加速对新数据集的学习和预训练。
Jul, 2022
该研究提供了一种名为 CO3D 的大规模数据集,其中包含了 50 种 MS-COCO 类别的近 19,000 个视频,共计 1.5 百万帧真实的多视角图像,带有相机姿态和地面真实 3D 点云的注释,并利用该数据集进行了新视角综合和类别为中心的 3D 重建方法的大规模 “野外” 评估,并提出了一种基于 Transformer 的新型神经渲染方法 NerFormer,可根据物体的少数视角重建整个物体。
Sep, 2021
本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集,旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注,为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放,包含注释工具和评估基准源代码。
Mar, 2022
该论文介绍了一个新的大规模数据集,该数据集可用于促进目标检测技术和高空目标检测研究。该数据集使用了一个新颖的地理空间类别检测和边界框注释过程,包括三个质量控制阶段。xView 是迄今为止最大、最多样化的公开目标检测数据集之一。
Feb, 2018
研究一种新的开放问题,即开放词汇类别级别的对象姿态和尺寸估计。介绍了一个基于预训练模型构建的框架,利用大规模数据集进行训练,并在各种文本描述的情况下实现了广泛推广。
Mar, 2024
通过使用视觉 - 语言(VL)基础模型,将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉 - 语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在 3D 语义、实例和全景分割任务中获得显著的改进。
Aug, 2023
开发一个统一的多任务基础模型已经成为计算机视觉研究中的一个关键挑战。本论文介绍了 VEnvision3D,一个用于多任务学习的大型 3D 合成感知数据集,包括深度补全、分割、上采样、场景识别和 3D 重建。对于每个任务的数据在相同场景下收集,使得任务在所使用的数据上本质上具有对齐的特点,从而可以探索多任务模型甚至基础模型的潜力。基于所提出数据集的特点,提出了几个新的基准测试,对端到端模型进行了广泛研究,揭示了未来研究的新观察、挑战和机会。此外,设计了一个简单的多任务网络,以展示 VEnvision3D 对基础模型可以提供的能力。我们的数据集和代码将在接受后开源。
Feb, 2024