通过区分性渲染和比较实现强大的三维感知物体分类
本研究提出了一种基于自监督的方法,利用强形状先验和二维实例掩模来重建带纹理的三维物体并进行姿态估计,通过可微分渲染和先前预训练的单目深度估计网络推断图像中每个物体的三维位置和网格信息,实验结果表明本方法有效地利用嘈杂的单目深度和可微分渲染来代替昂贵的 3D 地面真值标签或激光雷达信息。
Sep, 2020
通过与 ImageNet 数据集相结合,ImageNet3D 数据集提供了 200 个类别的 2D 和 3D 信息,从而为构建具有更强的通用性目标级三维理解的视觉模型提供了潜力。
Jun, 2024
本文提出了一种新颖的基于领域自适应的方法,以增强点云数据的鲁棒性,成功地解决了 3D 目标检测中出现的挑战性任务并达到了最先进水平。
Jun, 2020
本文提出了一种可扩展,高效和准确的方法,用于检索野外对象的 3D 模型,包括了 3D 姿态估计,使用姿态先验来检索 3D 模型,使用基于 CNN 的多视图度量学习方法从 RGB 图像中检索图像描述符与采用的渲染深度图像匹配的深度图像得出精准的 3D 模型,报告了 Pascal3D + 上 3D 模型的定量结果。
Mar, 2018
本篇论文提出 SyntheticP3D 数据集和 CC3D 方法,结合这两种方法可以实现在只用 10% 的真实数据的情况下,与当前最先进的模型在物体位姿估计方面取得了可与之媲美结果,在采用 50% 的真实数据时还超越了 SOTA 模型 10.4%。
May, 2023
本文提出了一种 3D 物体识别方法,利用 2D-3D 物体提升技术,逐步将对象检测输出增加到对象视点,关键点和 3D 形状估计,并在 Pascal3D + 数据集上同时实现 2D 边界框和视点估计的最佳方法。
Mar, 2015
通过改进的深度卷积神经网络以及多元箱子架构和几何限制,本研究在 KITTI 3D 检测基准测试上确定了更准确的三维对象姿态。
Apr, 2023
提出了一个名为 Omni3D 的大型测试数据集,其中包含 234k 个图像,涵盖了 98 个类别和 300 万个实例。引入了 Cube R-CNN 模型,能够更好地检测和识别 3D 场景和物体。该数据集可用于加速对新数据集的学习和预训练。
Jul, 2022
本文提出了一种新的 3D 生成建模框架,使用 2D 卷积运算从多个视角预测 3D 结构,并联合应用几何推理和 2D 投影优化来高效地生成以密集点云形式呈现的物体形状,并引入伪渲染器来合成优化的新深度图,在单张图像 3D 对象重建任务中表现了优越的形状相似性和预测密度。
Jun, 2017