单目三维物体检测深度条件动态消息传递
本文研究从立体图像中检测3D物体的问题,提出了使用3D锚点构建物体级对应的方法来增强检测和定位的深度神经网络,使用经济高效的渠道重新加权策略来增强表示特征。在KITTI数据集上,这些方法都优于现有方法。
Jun, 2019
本研究提出了一种新的本地卷积神经网络(D4LCN),该网络通过学习基于图像深度映射的过滤器及其响应域,克服了传统2D卷积的局限性,缩小了图像表达和3D点云之间的差距,显著提高了3D物体检测的性能。
Dec, 2019
本研究提出了一种基于自监督的方法,利用强形状先验和二维实例掩模来重建带纹理的三维物体并进行姿态估计,通过可微分渲染和先前预训练的单目深度估计网络推断图像中每个物体的三维位置和网格信息,实验结果表明本方法有效地利用嘈杂的单目深度和可微分渲染来代替昂贵的3D地面真值标签或激光雷达信息。
Sep, 2020
本文介绍了一种称之为DD3D的单阶段,端对端的单目3D对象检测器,能够借助深度预训练提升准确性并解决如伪激光雷达方法的限制,通过深度估计和三维检测之间的有效信息传输,在大规模无标记数据的帮助下,达到了KITTI-3D基准测试中的16.34%和9.28%AP的最新结果, 以及在NuScenes中的41.5%mAP。
Aug, 2021
本研究提出了DFR-Net,一种动态特征反射网络,通过分离任务特定的特征并自我相互反映,以及自适应地重新调整各个子任务的训练进程,有效地解决了基于KITTI数据集的3D物体检测问题,同时与目前先进的3D检测框架的集成成本极低。
Dec, 2021
通过提出一个伪立体式的三维检测框架,包括三种新颖的虚拟视图生成方法和基于视差动态卷积的特征滤波,从单张图片中进行三维物体检测,该方法在KITTI-3D基准测试中获得了车辆、行人和骑行者三个类别的第一名。
Mar, 2022
提出了一种新颖的端到端深度感知装换网络MonoDTR,用于解决自动驾驶中单目3D物体检测的任务,该网络包括深度感知特征增强模块(DFE)以及深度感知Transformer模块(DTR),通过辅助监督学习无需额外计算的深度感知特征,并全局整合上下文和深度感知特征;深度位置编码(DPE)注入深度位置提示到Transformer中,并通过实验证明该方法优于现有最先进方法并可实现实时检测。
Mar, 2022
本研究介绍了一种名为MonoDETR的使用深度感知Transformer的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在KITTI基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的Transformer基线的潜力。
Mar, 2022
提出了一种名为ADD的基于注意力的深度知识蒸馏框架,采用3D感知的位置编码方式,以在KITTI 3D目标检测基准测试上实现单目3D目标检测的最先进性能。
Nov, 2022