学习的多模态对齐的 4D-Net
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
该研究提出了两种简单而有效的融合 RGB 和点云模态的早期融合方法,称为 PointFusion 和 VoxelFusion,并利用 VoxelNet 结构来结合这些模态,从而实现与最先进的多模态算法竞争力相当的表现,其能够在 KITTI 基准测试的五个车顶俯视图和 3D 检测类别中实现前两名的排名。
Apr, 2019
本文探讨了利用深度学习在 3D 物体检测中,针对使用 RGB-D 数据在室内和室外场景下进行点云识别所面临的挑战以及如何提高效率。通过利用成熟的 2D 物体检测器和先进的 3D 深度学习来提高区域建议与对象本地化的精度,以取得高回收甚至小目标检测的良好性能。在 KITTI 和 SUN RGB-D 3D 检测基准上进行了评估,相比现有技术取得了显著的大幅度升级,并具有实时性能。
Nov, 2017
4DRVO-Net 是一种用于 4D 雷达 - 视觉里程计的方法,它通过特征金字塔、姿态变形和成本体积网络架构逐步估计和优化姿态。该方法还引入了自适应 4D 雷达 - 相机融合模块,以及一种基于速度引导的点置信度估计模块,以提高性能和鲁棒性。
Aug, 2023
通过领域自适应将感知域中的真实场景特征与概念域中的增强场景特征进行关联,提出了一种新的 3D 检测框架,同时引入基于注意力的重加权模块,无需增加推理成本即可利用网络特征增强能力,在 KITTI 3D 检测基准测试中实现了更高的性能。
Aug, 2022
本文提出了一种基于学习的方法,用于在点云数据中完成刚性物体的 6 自由度姿态估计,并且相比于使用 RGB 信息进行物体检测的方法,本方法可以通过初始检测到最终转换估计阶段处理无序的点集来实现准确的姿态估计,有些情况下还能够超过在相同数据上训练的最先进的方法.
Dec, 2019
本论文提出了一种用于自动驾驶场景中多模态三维物体检测的新型融合网络 FBMNet,其通过在边界框级别上学习对应关系以自由化校准依赖,从而提供了一种用于跨模态特征对齐的替代方法。在 nuScenes 数据集上的实验表明,该方法比现有融合方法更加稳定有效,适用于异步传感器、错位传感器放置和退化相机图像等复杂情况,为实现自动驾驶场景中安全而提供了一种可行解决方案。
May, 2023
本文提出了一种名为 LoGoNet 的基于 LiDAR 和相机融合的新型神经网络,该网络能够同时在局部和全局层面上对 3D 物体进行检测,并在 Waymo 和 KITTI 数据集上获得了最佳检测表现。
Mar, 2023
本文提出了一种自动驾驶中单目三维物体检测框架,着重解决了二维图像数据的不足,通过将输入数据从二维图像平面转换为三维点云空间进行处理,并使用 PointNet 网络进行三维检测,以提高点云的辨别能力,同时利用多模态融合模块将 RGB 颜色信息融入点云表示,证明了在三维空间中推断三维包围盒比在二维图像平面中更加有效,经过在 KITTI 数据集上的评估,该方法的表现超过现有最新的单目方法。
Mar, 2019
通过跨模态幻觉实现稳健的点云三维物体检测的新框架,结合空间和特征的多次对齐以实现骨干网络的细化和幻觉生成,提出了空间对齐和特征对齐的步骤以处理几何差异和感知模态间的属性差距,通过单模态数据进行推断阶段的输入,实现更好的困难检测和高效率的检测。在 View-of-Delft (VoD) 数据集上的广泛实验表明,该方法在雷达和 LiDAR 物体检测上优于最先进的方法,同时保持了竞争性的运行效率。
Sep, 2023