本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法,为了解决这个问题,提出了一种新的两阶段感知管道,它明确预测像素深度,并将它们与像素语义结合起来进行有效的推断,同时,使用抽象的高层几何特征进行转移学习,方法能够提高 24% 的 mIoU。
Jun, 2020
本文提出了新的 BEVFormer 框架,该框架学习使用时空变形器的统一 BEV 表示,以支持多个自主驾驶感知任务。在 nuScenes 测试集中,该方法达到了 56.9%的最新技术水平,且在低能见度条件下显着提高了速度估计和对象召回的准确性。
Mar, 2022
将鸟瞰视图中的语义分割任务分解为 BEV 地图重建和 RGB-BEV 特征对齐两个阶段,通过将 RGB 输入图像映射到第一阶段的 BEV 潜在空间,并在特征级别上直接优化两个视图之间的相关性,实现了复杂和具有挑战性场景的有效处理。
Apr, 2024
本文提出了一种新颖的半监督框架,用于通过利用未标记的图像在训练过程中提高视觉鸟瞰(BEV)语义分割的性能,包括使用一致性损失约束模型在语义预测和 BEV 特征上,以及一种名为联合旋转的新颖且有效的数据增强方法,在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知,这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作,代码将公开提供。
Aug, 2023
本文提出了一种基于编码解码器的自主行驶多摄像头车辆语义分割模型 LaRa,使用跨注意力机制将多个传感器的信息聚合成一组紧凑、丰富的潜在表示,进而在 BEV 空间中再次重投影,证明该模型在 nuScenes 上优于之前使用 Transformer 的最佳表现。
Jun, 2022
本文提出了 CoBEVT,这是一个通用的多代理多摄像头感知框架,能够协同生成 BEV 地图预测。在 V2V 感知数据集 OPV2V 上的广泛实验表明,CoBEVT 实现了合作 BEV 语义分割的最先进性能。此外,CoBEVT 还可应用于其他任务,包括单代理多摄像头的 BEV 分割和多代理 LiDAR 系统的 3D 对象检测,实现了实时推理速度和最先进的性能。
Jul, 2022
该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法,并利用神经网络进行分割和预测,以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤,通过合成数据训练神经网络,实现了对真实世界数据的普遍适用。与透视变换法相比,该方法在合成数据实验中表现出了优越性。
May, 2020
本研究提出了一种基于跨尺度分层 Transformer 和对应增强注意力的语义分割训练方法,针对使用多相机视图图像进行 Bird's-eye-view(BEV)语义分割的问题,并在大量实验中证明了其性能优越性。
Apr, 2023
本文介绍了一种名为 GitNet 的新型两阶段几何先验变换框架,以解决从单眼图像估计 BEV(鸟瞰图)语义地图的挑战,从而为自动驾驶提供强大的空间表示能力。GitNet 通过先进行几何引导的预对齐,然后再运用基于射线的变换模型进行分割来分别对 BEV 分割进行处理,具有较好的性能表现。
Apr, 2022
自动驾驶车辆需要神经网络在感知方面能够适应不同的视角,以便在多种类型的车辆中使用而无需重复地进行数据收集和标注。本研究通过大量实验发现,现有的感知模型对于摄像机视角的变化非常敏感,因此提出了一种方法来在车辆类型之间进行缩放,从而避免了额外的数据收集和标注成本,并通过引入新颖的视图合成技术,训练适用于各种车辆类型的鸟瞰图分割模型。
Sep, 2023