使用 RGB-D 融合在 DiffusionDet 框架中增强的汽车物体检测

Jun, 2024

使用 RGB-D 融合在 DiffusionDet 框架中增强的汽车物体检测

Enhanced Automotive Object Detection via RGB-D Fusion in a DiffusionDet Framework

Eliraz Orfaig, Inna Stainvas, Igal Bilik

TL;DR一项基于视觉的自动驾驶需要可靠高效的对象检测的研究提出了一种 DiffusionDet 框架，该框架利用单目相机和深度传感器的数据融合来提供 RGB 和深度（RGB-D）数据，并通过在训练阶段随机重塑基准边界框，使模型学习噪声加入的相反扩散过程。通过将 RGB 图像的纹理和颜色特征与 LiDAR 传感器的空间深度信息结合起来，所提出的框架采用了特征融合，从而大大提高了汽车目标的对象检测能力。在 KITTI 数据集上进行的全面实验取得了 2.3 的 AP 增益，特别是在检测小物体方面展示了所提出方法的改进性能。

Abstract

vision-based autonomous driving requires reliable and efficient object detection. This work proposes a diffusiondet-based framework that exploits data fusion from the monocular camera and depth sensor to provide

vision-based autonomous driving object detection diffusiondet-based framework rgb-d data automotive targets

发现论文，激发创造

3DifFusionDet：基于鲁棒性激光雷达与相机融合的三维物体检测的扩散模型

该研究提出了 3DifFusionDet 框架，将 3D 目标检测视为从噪声 3D 框到目标框的去噪扩散过程，并通过特征对齐策略和渐进改进方法，在 LiDAR-Camera 融合中取得了显著贡献。实验证明，3DifFusionDet 在 KITTI 上的表现优于前期的经典检测器。

Nov, 2023

用于资源高效的 RGB 目标检测的雷达引导动态视觉注意力

该论文提出一种新的雷达引导空间注意力融合方法，以提高自动驾驶车辆在动态环境下的感知质量，用于检测远距离和小型物体，并在 nuScenes 数据集上进行验证，结果表明该方法在提高基线 yolov3 检测器的召回率方面有了较大的改进。

Jun, 2022

GS3D：面向自动驾驶的高效三维物体检测框架

本文提出了一种基于单个 RGB 图像的高效三维目标检测框架，旨在从二维图像中提取三维信息并在无点云或立体数据的情况下确定对象的精确三维边界框。该方法利用二维目标检测器提取表面视觉特征，消除使用二维边界框带来的表征歧义问题，并探索了不同的三维边界框细化方法，发现基于质量感知损失的分类式方法具有更好的性能。在 KITTI 基准测试上，该方法优于当前单个 RGB 图像基础的三维目标检测技术水平。

Mar, 2019

用于自动驾驶的多视角三维物体检测网络

该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks（MV3D）框架，该框架采用多传感器融合技术，将 LIDAR 点云和 RGB 图像作为输入，并预测有方向的 3D 界限框。实验表明，该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25％和 30％，在 2D 检测中也表现出显著的技术优势。

Nov, 2016

多模态虚拟点 3D 检测

通过无缝融合 RGB 传感器到 Lidar 的 3D 识别中，我们提出了一个简单而有效的多模态检测器，该方法利用一组 2D 检测生成密集的虚拟 3D 点，能够增强原来稀疏的 3D 点云，实验结果在大规模 nuScenes 数据集上取得了显着的改进，并超过了竞争融合方法。

Nov, 2021

通过嵌入颜色的三维重建实现精确的单目物体检测，用于自动驾驶

本文提出了一种自动驾驶中单目三维物体检测框架，着重解决了二维图像数据的不足，通过将输入数据从二维图像平面转换为三维点云空间进行处理，并使用 PointNet 网络进行三维检测，以提高点云的辨别能力，同时利用多模态融合模块将 RGB 颜色信息融入点云表示，证明了在三维空间中推断三维包围盒比在二维图像平面中更加有效，经过在 KITTI 数据集上的评估，该方法的表现超过现有最新的单目方法。

Mar, 2019

RGB-D 物体识别的循环卷积融合

本文提出了一种称为循环卷积融合（RCFusion）的新型 RGB-D 物体识别端到端架构，能够通过组合互补的 RGB 和深度信息表示不同抽象层次的信息来生成紧凑且高度可区分的多模态特征，并在两个流行数据集上的实验中，优于现有的最先进方法。

Jun, 2018

基于深度信息的实时 RGB-D 语义分割融合网络，并结合道路图像中预警障碍物检测

本文提出了一种名为 RFNet 的实时融合语义分割网络，该网络可在自动驾驶汽车应用中快速运行，利用多个数据集进行训练，实现对意外小障碍的识别和面对现实世界中未预见到的危险，达到了显著的分割精度和 22Hz 推理速度。

Feb, 2020

基于 2D 后置融合的长尾 3D 检测

自动驾驶车辆要准确检测常见和罕见类别的物体以确保安全导航，因此出现了长尾三维物体检测（LT3D）的问题。本文研究了 RGB-LiDAR 融合的简单的后期融合框架，通过集成独立训练的 RGB 和 LiDAR 检测器，利用大规模单模数据集显著提高了罕见类别的检测性能，在几个关键组件方面进行了探讨，包括训练二维或三维 RGB 检测器、在三维空间中匹配 RGB 和 LiDAR 检测结果或在二维图像平面中匹配、以及如何概率地融合匹配的检测结果。大量实验结果显示，二维 RGB 检测器的识别准确性优于三维 RGB 检测器，基于二维图像平面的匹配可以减轻深度估计误差，使用概率校准的方法将分数融合可以达到最先进的 LT3D 性能。我们的后期融合方法在 nuScenes LT3D 基准测试中取得了 51.4 mAP 的成绩，相比之前的工作提高了 5.9 mAP。

Dec, 2023

自主驾驶的多传感器三维物体框细化

本文提出了一种在自动驾驶背景下具有多传感器优化的三维目标检测系统，其中单眼相机可以作为二维目标提议和初步三维边界框预测，而立体相机和 LiDAR 则被视为自适应插件传感器以优化 3D 边界框本地化性能。

Sep, 2019