ROI-10D: 从 2D 检测到 6D 姿态和度量形状的单眼抬升
本篇研究提出了一种基于关键点的方法,利用单个 RGB 图像进行三维目标检测和定位,该网络基于 2D 关键点检测和几何推理方法,同时估计 2D 特征和全局 3D 姿态,最终在 KITTI 数据集中达到了最好的性能表现。
May, 2019
该研究提出了一种通过单个 RGB 图像实现单目 3D 物体检测的方法,采用新颖的去耦合转换来实现 2D 和 3D 检测损失,以及一种新颖的自监督置信度分数来实现 3D 边界框。该方法通过隔离参数组对给定损失的贡献来解决了复杂互动参数存在的问题。同时,作者还通过改善 2D 检测结果的有符号交并比驱动损失来应用了损失去耦合。通过基于 KITTI3D 和 nuScenes 数据集的广泛实验评估和消融研究,该方法在车类别目标检测方面实现了新的最优成果。
May, 2019
本研究提出了一种基于自监督的方法,利用强形状先验和二维实例掩模来重建带纹理的三维物体并进行姿态估计,通过可微分渲染和先前预训练的单目深度估计网络推断图像中每个物体的三维位置和网格信息,实验结果表明本方法有效地利用嘈杂的单目深度和可微分渲染来代替昂贵的 3D 地面真值标签或激光雷达信息。
Sep, 2020
本文提出了一种新颖的流程,通过解耦 6D 姿态和尺寸估计,减轻了单目观察带来的尺度不精确对刚性变换的影响,并借助预训练的单目估计器获取局部几何信息,以便搜寻二维 - 三维对应关系,并利用基于类别级统计的独立分支直接恢复物体的度量尺度,最后倡导使用 RANSAC-P$n$P 算法鲁棒求解 6D 物体姿态。在合成和真实数据集上进行了大量实验证明,相对于先前最先进的基于 RGB 的方法,我们的方法在旋转准确性方面表现出更高的性能。
Sep, 2023
本文提出了一种使用单张图片进行三维目标检测与姿态估计的方法,通过使用深度卷积神经网络来回归相对稳定的三维目标属性,并使用二维边界框提供的几何约束来组合这些估计,从而产生完整的三维边界框。
Dec, 2016
本文介绍了一种采用弱监督学习的单目三维目标检测方法,该方法利用生成的二维框选择对应的区域兴趣 LiDAR 点作为弱监督信号,并通过网络预测可以紧密对齐相应区域兴趣 LiDAR 点的三维框,从而消除了对三维框标注的依赖。
Mar, 2022
本文提出了一种适用于单目三维目标检测的新型基于物体的体素表示法,能够有效地组织噪点云在体素网格内,并能够精确定位对象在三维空间中的位置。通过考虑三维物体与相关二维框之间的关系,我们将单目三维目标检测中的置信度机制进行了分解,并在 KITTI 数据集上进行了评估,性能显著优于现有技术。
Apr, 2021
该研究提出了一种基于深度神经网络和形态感知的三维目标检测方法,利用二维关键点和对应的三维坐标以及二维 / 三维的几何约束提高检测性能,并在公共数据集 KITTI 上实现了最新的性能。
Aug, 2021
通过引入一种新的度量学习方案,我们的方法旨在提取具有深度区分特征的模型,而不增加推断时间和模型大小,通过使用距离保持函数来组织特征空间流形,将特征描述符之间的距离设置为与真实物体深度相关,并引入用于物体深度估计的辅助头部,以提高深度质量。此方法在 KITTI 和 Waymo 数据集上集成到各种基线模型中,实验证明了其广泛适用性,并且相对于基线模型,综合性能提高了 23.51% 和 5.78%。
Jan, 2024