通过 3D 到 2D 查询从多视角图像中进行 3D 物体检测
本文介绍了一种利用图结构学习的方法 --Graph-DETR3D-- 用于自动聚合多视角图像信息,以提高 3D 物体检测的性能。我们证明了在不同区域定位物体时,边缘区域的 “截断实例” 是影响 DETR3D 表现的主要瓶颈之一。通过采用我们提出的深度无关多尺度训练策略和动态 3D 图技术,相较于其他图像视角 3D 物体检测器的表现,Graph-DETR3D 获得了更好的表现。
Apr, 2022
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
本文提出了一种针对自动驾驶车辆 3D 物体检测任务的新型两阶段 3D 物体检测方法,通过深度卷积神经网络回归两个额外的 3D 物体属性并与二维和三维框之间的级联几何约束相结合,旨在获取 3D 空间中物体位置的最佳解。
Sep, 2019
本文提出了一种基于单个 RGB 图像的高效三维目标检测框架,旨在从二维图像中提取三维信息并在无点云或立体数据的情况下确定对象的精确三维边界框。该方法利用二维目标检测器提取表面视觉特征,消除使用二维边界框带来的表征歧义问题,并探索了不同的三维边界框细化方法,发现基于质量感知损失的分类式方法具有更好的性能。在 KITTI 基准测试上,该方法优于当前单个 RGB 图像基础的三维目标检测技术水平。
Mar, 2019
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
提出了一种基于 3D 跟踪查询和相机转换的多相机跟踪框架 MUTR3D,适用于自动驾驶系统,并且在 nuScenes 数据集上的评价结果优于目前所有的方法。
May, 2022
通过引入 SS3D 方法,成功在单目图像中实现三维物体检测,并通过建模异方差性提高了基准性能。该方法在保持简洁的同时,达到了当前状态下最高的检测精度,是实现自主驾驶等领域高性能检测的可靠框架。
Jun, 2019
本研究介绍了一种基于多视角几何的 3D 物体检测方法 VEDet,通过视点感知和等变性,利用查询式转换器系统将三维场景转化为位置编码来提高目标定位精度,并在损失层面进行多视角一致性规范化,通过丰富的几何线索提高性能以优化现有方法。
Mar, 2023
3DETR 是一种基于 Transformer 的端到端目标检测模型,适用于 3D 点云,相较于现有的检测方法,它需要最少的修改,可以通过将 3D 领域知识整合进去得到进一步的改进,在 ScanNetV2 数据集上,相比于 VoteNet 基线具有 9.5% 更好的性能,并且适用于其他 3D 任务。
Sep, 2021
该研究提出了一种通过单个 RGB 图像实现单目 3D 物体检测的方法,采用新颖的去耦合转换来实现 2D 和 3D 检测损失,以及一种新颖的自监督置信度分数来实现 3D 边界框。该方法通过隔离参数组对给定损失的贡献来解决了复杂互动参数存在的问题。同时,作者还通过改善 2D 检测结果的有符号交并比驱动损失来应用了损失去耦合。通过基于 KITTI3D 和 nuScenes 数据集的广泛实验评估和消融研究,该方法在车类别目标检测方面实现了新的最优成果。
May, 2019