物体不同:灵活的单目三维物体检测
本研究提出了一种基于自监督的方法,利用强形状先验和二维实例掩模来重建带纹理的三维物体并进行姿态估计,通过可微分渲染和先前预训练的单目深度估计网络推断图像中每个物体的三维位置和网格信息,实验结果表明本方法有效地利用嘈杂的单目深度和可微分渲染来代替昂贵的 3D 地面真值标签或激光雷达信息。
Sep, 2020
本文提出了一种基于单张图像深度估计的 3D 物体检测方法,该方法利用细节和多个子任务提取视觉线索并生成多个深度估计值,再通过深度选择和组合策略得到单个深度估计值以提高精度和鲁棒性,在 KITTI 3D 物体检测基准测试中的表现甚至比当前最佳方法都要超过 20%。
May, 2022
该研究提出了一种新的统一框架,将单眼 RGB 图像中的目标检测问题分解为结构化多边形预测任务和深度恢复任务,并使用对象高度先验进行反向投影变换,进一步纠正 3D 检测结果并取得了最先进的检测准确度。
Feb, 2020
本篇研究提出了一种基于关键点的方法,利用单个 RGB 图像进行三维目标检测和定位,该网络基于 2D 关键点检测和几何推理方法,同时估计 2D 特征和全局 3D 姿态,最终在 KITTI 数据集中达到了最好的性能表现。
May, 2019
本文提出了一种基于单目 RGB 图像的 3D 目标检测方法 ——Center3D,通过利用 2D 和 3D 中心之间的差异及组合分类和回归方法,可以更加准确、高效地定位和深度估计,相较现有方法,实验表明此方法在 KITTI 数据集上表现更好。
May, 2020
提出了一种新颖的端到端深度感知装换网络 MonoDTR,用于解决自动驾驶中单目 3D 物体检测的任务,该网络包括深度感知特征增强模块(DFE)以及深度感知 Transformer 模块(DTR),通过辅助监督学习无需额外计算的深度感知特征,并全局整合上下文和深度感知特征;深度位置编码(DPE)注入深度位置提示到 Transformer 中,并通过实验证明该方法优于现有最先进方法并可实现实时检测。
Mar, 2022
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
本文提出了一种名为 SGM3D 的新方法,通过引入多粒度域自适应和基于 IoU 匹配的对齐方法,将立体 3D 特征适应到单眼检测中,显著提高了检测性能。实验证明,该方法在 KITTI 和 Lyft 数据集上取得了最先进的结果。
Dec, 2021
通过增加全局深度线索和利用多个深度线索之间的几何关系,提出的方法可以提高单眼三维对象检测的深度补充性,实现了最新性能并无需引入额外数据。
Apr, 2024
本篇研究提出一种基于几何建模的投影模型方法,用于改进单目三维物体检测中的深度估计问题,实验证明该方法使得检测性能得到了显著提升。
Jul, 2021