使用几何和语义点云进行鸟瞰图语义分割
将鸟瞰视图中的语义分割任务分解为 BEV 地图重建和 RGB-BEV 特征对齐两个阶段,通过将 RGB 输入图像映射到第一阶段的 BEV 潜在空间,并在特征级别上直接优化两个视图之间的相关性,实现了复杂和具有挑战性场景的有效处理。
Apr, 2024
本文提出了一种新颖的半监督框架,用于通过利用未标记的图像在训练过程中提高视觉鸟瞰(BEV)语义分割的性能,包括使用一致性损失约束模型在语义预测和 BEV 特征上,以及一种名为联合旋转的新颖且有效的数据增强方法,在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知,这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作,代码将公开提供。
Aug, 2023
本文介绍了一种基于点云的深度学习框架 3D-BEVIS,旨在对 3D 场景进行语义实例分割,通过将局部点几何和中间俯视图表示的全局环境信息相结合,以聚类的方式学习特征嵌入并将其分组成语义实例。
Apr, 2019
该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法,通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性,并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进,与最先进的基于卫星和跨视图的方法相比,平均 mIOU 提高了 10.13% 和 5.21%。
Apr, 2024
本文介绍了一种名为 GitNet 的新型两阶段几何先验变换框架,以解决从单眼图像估计 BEV(鸟瞰图)语义地图的挑战,从而为自动驾驶提供强大的空间表示能力。GitNet 通过先进行几何引导的预对齐,然后再运用基于射线的变换模型进行分割来分别对 BEV 分割进行处理,具有较好的性能表现。
Apr, 2022
该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法,并利用神经网络进行分割和预测,以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤,通过合成数据训练神经网络,实现了对真实世界数据的普遍适用。与透视变换法相比,该方法在合成数据实验中表现出了优越性。
May, 2020
提出了一种名为 U-BEV 的神经网络架构,通过多个高度层次的场景推理和 SD-map 数据的可微模板匹配,有效改善了车辆重定位性能。该方法在 nuScenes 数据集上的实验结果显示,相较于其他相似复杂度的基于 BEV 和 Transformer 的方法,综合性能提高了 1.7-2.8 mIoU,重现率提高了超过 26%。
Oct, 2023
本文介绍了一种 Semantic-Aware BEV Pooling (SA-BEVPool) 的方法,通过语义分割图像特征来过滤背景信息,并将图像特征转化为语义感知的 BEV 特征。同时,提出了一种与语义感知 BEV 特征相匹配的有效数据增强策略 BEV-Paste。此外,设计了一个多尺度交叉任务头(MSCT),结合特定任务和交叉任务的信息来更准确地预测深度分布和语义分割,进一步提高语义感知 BEV 特征的质量。最后,将这些模块整合到一个新的多视角 3D 目标检测框架 SA-BEV 中,在 nuScenes 数据集上达到了最先进的性能。
Jul, 2023
本文提出了一个称为 M2BEV 的统一框架,它可以通过多摄像头图像输入在 Birds Eye View(BEV)空间中联合执行三维物体检测和地图分割,是一个高效的方法。实验结果表明,M2BEV 在 3D 对象检测和 BEV 分割方面的性能优于现有技术。
Apr, 2022