基于扩散的随机盒子三维物体检测
DiffusionDet 是一种将对象检测作为从噪声框到对象框的去噪扩散过程的新框架,其在训练阶段通过对象框从地面实况框扩散到随机分布,模型学习将该过程反转,在推断阶段,模型以渐进方式将一组随机生成框细化为输出结果,使用随机框作为对象候选框有利于解决对象检测问题,并且该问题可以通过生成方法来解决。
Nov, 2022
该研究提出了 3DifFusionDet 框架,将 3D 目标检测视为从噪声 3D 框到目标框的去噪扩散过程,并通过特征对齐策略和渐进改进方法,在 LiDAR-Camera 融合中取得了显著贡献。实验证明,3DifFusionDet 在 KITTI 上的表现优于前期的经典检测器。
Nov, 2023
通过引入一种新颖的基于扩散的边界精化方法,利用激光雷达点环绕粗糙边界框的无域扩散模型来同时精化边界框的位置、尺寸和方向,克服了现有模型在应用于具有不同传感器设置或地理位置的领域时面临的性能不稳定问题,从而在不同数据集、目标类别和检测器上实现了显著的改进。
May, 2024
我们介绍了 3DiffTection,这是一种用于从单张图像中进行 3D 物体检测的最先进方法,利用了来自 3D 感知扩散模型的特征。通过两种专门的调整策略:几何和语义,我们的方法弥合了这些差距。通过我们的方法,我们获得了为 3D 检测量身定制的 3D 感知特征,以及在识别跨视角点对应方面表现出色的能力。
Nov, 2023
DiffRef3D 是一种新颖的框架,采用了首次将扩散流程应用于使用点云的三维物体检测,通过将噪声逐渐添加到提案和目标物体之间的残差,并将噪声残差应用于提案以生成假设,然后通过迭代步骤对假设进行精确的盒子预测,从而在现有的三维物体检测模型中持续改进性能。
Oct, 2023
一项基于视觉的自动驾驶需要可靠高效的对象检测的研究提出了一种 DiffusionDet 框架,该框架利用单目相机和深度传感器的数据融合来提供 RGB 和深度(RGB-D)数据,并通过在训练阶段随机重塑基准边界框,使模型学习噪声加入的相反扩散过程。通过将 RGB 图像的纹理和颜色特征与 LiDAR 传感器的空间深度信息结合起来,所提出的框架采用了特征融合,从而大大提高了汽车目标的对象检测能力。在 KITTI 数据集上进行的全面实验取得了 2.3 的 AP 增益,特别是在检测小物体方面展示了所提出方法的改进性能。
Jun, 2024
本文介绍了一种新的标注方法,将人类监督与预训练的神经网络相结合,生成每个实例的三维点云分割,三维边界框和类别注释,以减少训练自动驾驶的 3D 物体检测器所需的任务复杂性和注释人员所需的任务切换量,实验结果表明,该方法相比传统方法减少了 30 倍人工标注时间。
Jul, 2018
本文提出了一种基于单个 RGB 图像的高效三维目标检测框架,旨在从二维图像中提取三维信息并在无点云或立体数据的情况下确定对象的精确三维边界框。该方法利用二维目标检测器提取表面视觉特征,消除使用二维边界框带来的表征歧义问题,并探索了不同的三维边界框细化方法,发现基于质量感知损失的分类式方法具有更好的性能。在 KITTI 基准测试上,该方法优于当前单个 RGB 图像基础的三维目标检测技术水平。
Mar, 2019