VEnvision3D：用于三维多任务模型研究的合成感知数据集

Feb, 2024

VEnvision3D：用于三维多任务模型研究的合成感知数据集

VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model Research

Jiahao Zhou, Chen Long, Yue Xie, Jialiang Wang, Boheng Li...

TL;DR开发一个统一的多任务基础模型已经成为计算机视觉研究中的一个关键挑战。本论文介绍了 VEnvision3D，一个用于多任务学习的大型 3D 合成感知数据集，包括深度补全、分割、上采样、场景识别和 3D 重建。对于每个任务的数据在相同场景下收集，使得任务在所使用的数据上本质上具有对齐的特点，从而可以探索多任务模型甚至基础模型的潜力。基于所提出数据集的特点，提出了几个新的基准测试，对端到端模型进行了广泛研究，揭示了未来研究的新观察、挑战和机会。此外，设计了一个简单的多任务网络，以展示 VEnvision3D 对基础模型可以提供的能力。我们的数据集和代码将在接受后开源。

Abstract

Developing a unified multi-task foundation model has become a critical challenge in computer vision research. In the current field of 3D computer vision, most datasets solely focus on a relatively limited set of tasks, which complicates the concurrent training requirements of various d

multi-task learning 3d computer vision synthetic perception dataset multi-objective networks foundation model

发现论文，激发创造

用于多视角三维重建的现实数据集

本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集，旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注，为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放，包含注释工具和评估基准源代码。

Mar, 2022

城市景观 - 3D 上的联合 2D-3D 多任务学习：3D 检测、分割和深度估计

TaskPrompter 是一种多任务提示框架，通过使用 Cityscapes-3D 数据集实现联合 2D-3D 任务学习，以实现单眼 3D 车辆检测、语义分割和单眼深度估计的预测，为开发自动驾驶系统做出了积极的贡献，相较于单任务最先进方法表现出更强的性能，并在挑战性的 3D 检测和深度估计任务上建立了新的最先进结果。

Apr, 2023

面向车载多任务人脸属性识别的研究：探究合成数据和视觉基础模型

通过研究合成数据集在训练复杂的多任务模型中的实用性，特别是在数据可用性有限的情况下，以及视觉基础模型的比较功效，本研究揭示了关于合成数据和视觉基础模型在实际应用中的挑战和机遇。

Mar, 2024

DepthSynth：基于 CAD 模型实时生成逼真合成数据用于 2.5D 识别

通过模拟关键因素（如传感器噪声、材料反射、表面几何）生成真实的深度数据，以提高深度神经网络的训练效果。

Feb, 2017

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020

Uni3D: 多数据集三维物体检测的统一基线

该论文研究了如何训练一个来自多个数据集的统一 3D 检测器，提出了一种名为 Uni3D 的方法来解决数据级别和分类学级别的差异，证明了该方法的有效性并对进一步的 3D 泛化研究具有启发意义。

Mar, 2023

MVImgNet：一种多视图图像的大规模数据集

提出了一个名为 MVImgNet 的大规模多视图图像数据集，它包含了从 238 个类别的 219,188 个视频中捕获的 650 万个帧。这个数据集被用于在 3D 视觉和 2D 视觉任务中进行了各种实验，包括辐射场重建、多视图立体和视角一致的图像理解。此外，MVImgNet 还产生了一个 3D 物体点云数据集 MVPNet，其中每个点云有类别标签，并且有望在 3D 物体分类方面发挥作用。

Mar, 2023

PonderV2：铺设通向通用预训练范式的 3D 基础模型之路

通过可微分神经渲染，我们提出了一个新的通用方法来学习点云表示，实现了 3D 和 2D 之间的无缝集成，并在室内和室外场景中的多个任务中实现了卓越的性能和持续改进。

Oct, 2023

使用合成数据理解现实世界室内场景的 SceneNet

本文研究场景理解问题，通过使用计算机图形学生成合成 3D 场景，以解决手动收集大量数据问题，从而避免了收集数据的麻烦和昂贵成本。通过使用深度数据作为输入仅使用 RGB-D 系统的深度数据，我们在 NYUv2 数据集上的表现相当于最先进的 RGBD 系统，并在 SUN RGB-D 数据集上设置了基准。文章还探讨了生成合成图像或视频数据，以及分析影响性能增益的不同因素。

Nov, 2015

虚拟多视角融合用于三维语义分割

本文通过重新审视三维网格的经典多视图表示方法，研究了几种技术，使其可用于三维语义网格的语义分割。给定一个从 RGBD 传感器重建的三维网格，本文方法有效地选取不同的虚拟视图，并渲染多个二维通道，以训练出有效的二维语义分割模型；最终将多视讯预测的特征融合到三维网格顶点上，预测网格语义分割标签。

Jul, 2020