3DifFusionDet:基于鲁棒性激光雷达与相机融合的三维物体检测的扩散模型
DiffusionDet 是一种将对象检测作为从噪声框到对象框的去噪扩散过程的新框架,其在训练阶段通过对象框从地面实况框扩散到随机分布,模型学习将该过程反转,在推断阶段,模型以渐进方式将一组随机生成框细化为输出结果,使用随机框作为对象候选框有利于解决对象检测问题,并且该问题可以通过生成方法来解决。
Nov, 2022
一项基于视觉的自动驾驶需要可靠高效的对象检测的研究提出了一种 DiffusionDet 框架,该框架利用单目相机和深度传感器的数据融合来提供 RGB 和深度(RGB-D)数据,并通过在训练阶段随机重塑基准边界框,使模型学习噪声加入的相反扩散过程。通过将 RGB 图像的纹理和颜色特征与 LiDAR 传感器的空间深度信息结合起来,所提出的框架采用了特征融合,从而大大提高了汽车目标的对象检测能力。在 KITTI 数据集上进行的全面实验取得了 2.3 的 AP 增益,特别是在检测小物体方面展示了所提出方法的改进性能。
Jun, 2024
DiffRef3D 是一种新颖的框架,采用了首次将扩散流程应用于使用点云的三维物体检测,通过将噪声逐渐添加到提案和目标物体之间的残差,并将噪声残差应用于提案以生成假设,然后通过迭代步骤对假设进行精确的盒子预测,从而在现有的三维物体检测模型中持续改进性能。
Oct, 2023
Diff3Det 使用扩散模型进行 3D 物体检测的提案生成,通过将检测框视为生成目标,在训练过程中将物体框从真实框扩散到高斯分布,并学习解码器逆转这个噪声过程。推理阶段,模型逐渐将一系列随机框细化为预测结果,在 KITTI 基准测试上表现出有希望的性能,相较于经典的基于锚点的 3D 检测方法。
Sep, 2023
通过引入一种新颖的基于扩散的边界精化方法,利用激光雷达点环绕粗糙边界框的无域扩散模型来同时精化边界框的位置、尺寸和方向,克服了现有模型在应用于具有不同传感器设置或地理位置的领域时面临的性能不稳定问题,从而在不同数据集、目标类别和检测器上实现了显著的改进。
May, 2024
DeepFusion 提出了一种模块化的多模态架构,用于融合 lidar,相机和雷达以进行 3D 物体检测,实验结果证明了其灵活性和有效性,并探讨了远距离汽车检测和所需的激光点密度对 3D 物体检测的影响。
Sep, 2022
本文提出了一种新颖的三维物体检测器,利用雷达和摄像头实现非常精确的定位,设计了一种端到端可学习的架构,利用连续卷积在不同分辨率级别上融合图像和雷达特征图,其实现了对离散状态图像特征和连续几何信息的编码,从而能够基于多种传感器设计新颖,可靠且高效的端到端可学习的三维目标检测器,实验结果显示,在 KITTI 和大规模三维目标检测基准测试中,相对于现有技术有显著的提高。
Dec, 2020
TransFusion 是一种稳健的解决方案,用于处理自动驾驶中 LiDAR 和摄像头数据融合时面对的图像质量下降和误差校准问题。该方法结合了使用浅层目标查询从 LiDAR 点云预测初始边界框和自适应融合对象查询与有用的图像特征,使用注意机制确定应该从图像中获取哪些信息的特点,在大规模数据集上表现良好。
Mar, 2022
我们介绍了 3DiffTection,这是一种用于从单张图像中进行 3D 物体检测的最先进方法,利用了来自 3D 感知扩散模型的特征。通过两种专门的调整策略:几何和语义,我们的方法弥合了这些差距。通过我们的方法,我们获得了为 3D 检测量身定制的 3D 感知特征,以及在识别跨视角点对应方面表现出色的能力。
Nov, 2023
DifFUSER 是一个新的方法,利用扩散模型进行多模态融合,特别适用于三维物体检测和 BEV 地图分割,通过扩散的去噪特性,能够在传感器故障的情况下改进或合成传感器特征,从而提高融合输出的质量。在架构方面,我们采用了层级 BiFPN 结构的 DifFUSER 块,进一步引入了 Gated Self-conditioned Modulated (GSM) 潜在扩散模块以及 Progressive Sensor Dropout Training (PSDT) 范式,以增强扩散过程的条件性和对传感器故障的鲁棒性。我们在 Nuscenes 数据集上进行广泛评估,结果显示 DifFUSER 不仅在 BEV 地图分割任务中取得了 69.1% 的 mIOU 的最新成绩,而且在三维物体检测方面与领先的基于 Transformer 的融合技术具有很强的竞争力。
Apr, 2024