使用交并比损失端到端训练的单目 3D 物体检测与盒式拟合
该研究提出了一种通过单个 RGB 图像实现单目 3D 物体检测的方法,采用新颖的去耦合转换来实现 2D 和 3D 检测损失,以及一种新颖的自监督置信度分数来实现 3D 边界框。该方法通过隔离参数组对给定损失的贡献来解决了复杂互动参数存在的问题。同时,作者还通过改善 2D 检测结果的有符号交并比驱动损失来应用了损失去耦合。通过基于 KITTI3D 和 nuScenes 数据集的广泛实验评估和消融研究,该方法在车类别目标检测方面实现了新的最优成果。
May, 2019
研究了 3D 目标检测中的 2D 检测问题,提出了基于全卷积单级检测器的通用框架 FCOS3D,在不使用 2D 检测或 2D-3D 对应先验的前提下,通过重新定义中心性和将对象分配到不同的特征级别等方式,得到了简单而又高效的解决方案。在 NeurIPS 2020 的 nuScenes 3D 检测挑战赛中,该方法在所有只使用视觉信息的方法中获得第一名。
Apr, 2021
本文提出了一种基于单个 RGB 图像的高效三维目标检测框架,旨在从二维图像中提取三维信息并在无点云或立体数据的情况下确定对象的精确三维边界框。该方法利用二维目标检测器提取表面视觉特征,消除使用二维边界框带来的表征歧义问题,并探索了不同的三维边界框细化方法,发现基于质量感知损失的分类式方法具有更好的性能。在 KITTI 基准测试上,该方法优于当前单个 RGB 图像基础的三维目标检测技术水平。
Mar, 2019
提出了一种基于多摄像头的 3D 对象检测框架,使用基于上下文注意力的网络,直接在 3D 空间中进行边界框的预测,实现了全球最佳性能。
Oct, 2021
该研究提出了一种新的统一框架,将单眼 RGB 图像中的目标检测问题分解为结构化多边形预测任务和深度恢复任务,并使用对象高度先验进行反向投影变换,进一步纠正 3D 检测结果并取得了最先进的检测准确度。
Feb, 2020
本文提出了一种新的单目三维目标检测方法,通过考虑物体间的几何关系,探索它们的相互关系来更好地估计三维框,并使用检测到的二维框来全局约束相应的三维框的优化,通过提出的可微分损失函数(Homography Loss)来实现这一目标。实验证明,该方法表现出比其他最先进的方法在 KITTI 3D 数据集上具有更好的性能。
Apr, 2022
该研究提出了一种名为 MonoXiver 的方法,可通过组合 2D 到 3D 和 3D 到 2D 的信息流,使用 3D 空间局部网格搜索方式,实现单眼 3D 物体检测的 3D 中心定位。该方法使用 Perceiver I / O 模型,融合了几何信息和 2D 外观信息以学习去噪特征。在 KITTI 和 Waymo 数据集上的实验表明,MonoXiver 能在有限的计算开销下实现持续改进。
Apr, 2023
本文提出了一种基于单目 RGB 图像的 3D 目标检测方法 ——Center3D,通过利用 2D 和 3D 中心之间的差异及组合分类和回归方法,可以更加准确、高效地定位和深度估计,相较现有方法,实验表明此方法在 KITTI 数据集上表现更好。
May, 2020
通过训练一个鲁棒的单目三维物体检测模型,采用包括多样化的三维和二维数据集、有选择地训练不同类别注释的数据集和使用二维标签的伪三维训练方法,我们可以获得具有强大泛化能力和对只有二维标签的新数据集表现出色的模型。
Oct, 2023
本文介绍了一种方法,用于在静态和动态环境下单个图像的三维立方体物体检测和多视图对象 SLAM,并展示了两个部分如何互相改进,对单个图像物体检测,我们从 2D 边界框和消失点采样中生成高质量的 cuboid 提议,并根据与图像边缘的对齐性对提议进行进一步评分和选择。其次,提出了新的对象测量的多视图束调整,以联合优化相机,对象和点的姿态。对象可以提供长程几何和尺度约束,以改善相机姿态估计并减少单眼漂移。而不是将动态区域视为异常值,我们利用对象表示和运动模型约束来改善相机姿态估计。在 SUN RGBD 和 KITTI 上进行的 3D 检测实验证明了与现有方法相比更高的准确性和鲁棒性。在公共 TUM,KITTI 测距和我们自己收集的数据集上,我们的 SLAM 方法实现了最先进的单眼相机姿态估计,同时提高了 3D 对象检测的准确性。
Jun, 2018