本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法,为了解决这个问题,提出了一种新的两阶段感知管道,它明确预测像素深度,并将它们与像素语义结合起来进行有效的推断,同时,使用抽象的高层几何特征进行转移学习,方法能够提高 24% 的 mIoU。
Jun, 2020
该研究提出了一种有效的三维(3D)到 Bird's-Eye-View(BEV)知识蒸馏方法,将丰富的知识从基于 Voxel 的模型传递到基于 BEV 的模型,该方法应用于自动驾驶领域的 LiDAR 点云分割任务中,明显提高了准确性,SemanticKITTI 数据集是该研究的实验验证平台。
Apr, 2023
该研究主要讨论了基于深度学习的三维分割在点云数据处理中的应用,并评估了不同分割算法对不同数据集的竞争力以及最常使用的处理流程、其优势、限制、未来研究方向等。
Jun, 2024
本文提出了一种新颖的半监督框架,用于通过利用未标记的图像在训练过程中提高视觉鸟瞰(BEV)语义分割的性能,包括使用一致性损失约束模型在语义预测和 BEV 特征上,以及一种名为联合旋转的新颖且有效的数据增强方法,在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知,这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作,代码将公开提供。
Aug, 2023
本研究提出了一种利用分割信息指导检测过程的多任务框架,该框架联合执行三维物体检测和全景分割,可利用多视角信息解决每个投影视图的缺陷,并通过前景语义信息和中心密度热力图来提示物体的可能框中心位置。在 nuScenes 数据集上进行的大量实验表明,该方法提供了显著的性能提升,基于单级 CenterPoint 3D 物体检测网络的所提出方法在 nuScenes 3D 检测基准上取得了 67.3 NDS 的最新性能。
Mar, 2022
本文提出了一种全端到端的三维物体检测框架,可以仅使用 Bird's Eye View 图像自动推断取向的三维包围盒,并且该方法在 KITTI 三维物体检测基准中超出了现有方法的性能并获得了最佳结果。
Mar, 2020
本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法,并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号,实验证明该设计可以轻松集成到大多数先进的三维物体检测器中,并始终改善基线模型。
提出一种基于弱监督学习的方法来估计具有鸟瞰视角位置的物体的三维位置,该方法可以在单个前馈网络过程中联合学习回归 2D 对象检测和场景深度预测,并在不需要 3D 或 BEV 注释或 LiDAR 数据的情况下对物体进行建模。
Dec, 2022
提出了 MaskBEV,一种基于鸟瞰图的面罩型目标检测器神经架构,用于检测单个 BEV 实例掩模,同时重塑检测问题,完全基于分类处理。
Jul, 2023
本文提出了一个称为 M2BEV 的统一框架,它可以通过多摄像头图像输入在 Birds Eye View(BEV)空间中联合执行三维物体检测和地图分割,是一个高效的方法。实验结果表明,M2BEV 在 3D 对象检测和 BEV 分割方面的性能优于现有技术。
Apr, 2022