Uni3D: 多数据集三维物体检测的统一基线
Uni3DL 是一个统一的 3D 和语言理解模型,它运用于点云而不是传统的多视图图像,实现了对多种 3D 任务的支持,包括语义分割、目标检测、实例分割、视觉定位、3D 字幕和文本 - 3D 跨模态检索,并且在性能上超过了最先进的特定任务模型。
Dec, 2023
通过训练一个鲁棒的单目三维物体检测模型,采用包括多样化的三维和二维数据集、有选择地训练不同类别注释的数据集和使用二维标签的伪三维训练方法,我们可以获得具有强大泛化能力和对只有二维标签的新数据集表现出色的模型。
Oct, 2023
通过 Uni3D,我们提出了一种可扩展的 3D 对象和场景表示方法,利用 2D 模型作为初始化,并通过图像 - 文本对齐模型作为目标,解锁了 2D 模型和扩展策略在 3D 世界中的潜力,并在许多 3D 任务中取得了新的成绩,如零样本分类、少样本分类、开放世界理解和部分分割,并展示了 Uni3D 在野外环境中进行的 3D 绘画和检索等应用。我们相信,Uni3D 为探索 3D 领域的表示扩展和效率提供了新的方向。
Oct, 2023
UniG3D 是一个统一的 3D 对象生成数据集,采用 Objaverse 和 ShapeNet 数据集的通用数据转换管道,并使用渲染引擎和多模态模型将每个原始的 3D 模型转换成包含文本、图像、点云和网格的综合多模态数据表示,该数据集可应用于任何 3D 数据集中。
Jun, 2023
OV-Uni3DETR 是一种统一的开放词汇 3D 检测器,通过循环模态传播实现,具有开放词汇的 3D 检测、模态统一、场景统一的优势,并以超过 6%的性能优势超越了现有方法,在只使用 RGB 图像的情况下性能与以前的基于点云的方法相当甚至更好。
Mar, 2024
通过基于鸟瞰(BEV)检测范式的显式特征投影、经典 BEV 检测架构的拆分、不均匀的 BEV 网格设计、稀疏的 BEV 特征投影策略和统一的域对齐方法等技术,派生出了统一的检测器 UniMODE,其在挑战性的 Omni3D 数据集上超过了先前的最新技术,实现了首个 BEV 检测器对统一 3D 物体检测的成功推广。
Feb, 2024
提出了一个名为 Omni3D 的大型测试数据集,其中包含 234k 个图像,涵盖了 98 个类别和 300 万个实例。引入了 Cube R-CNN 模型,能够更好地检测和识别 3D 场景和物体。该数据集可用于加速对新数据集的学习和预训练。
Jul, 2022
我们提出了 Uni3DETR,一个统一的 3D 检测器,他可以有效应对室内和室外 3D 检测的差异,并展现了在异构条件下的强大泛化能力。
Oct, 2023
UniVision 是一个简单高效的框架,统一了视觉导向的自动驾驶中的三维感知任务,包括占有率预测和物体检测,并在各项公开基准测试中取得了领先的结果。
Jan, 2024
通过使用多个标注源数据集,并结合基于粗标签的标签映射以及跨数据集对象注入的数据增强方法,提高了在不同环境中、由不同传感器配置采集的数据上测试时三维物体检测模型的鲁棒性。
Aug, 2023