BEVSegFormer: 任意相机架构的鸟瞰视角语义分割

Mar, 2022

BEVSegFormer: 任意相机架构的鸟瞰视角语义分割

BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs

Lang Peng, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, Erkang Cheng

TL;DR本文介绍了 BEVSegFormer，一种有效的基于转换器的方法，用于从任意摄像机装置进行 BEV 语义分割。

Abstract

semantic segmentation in bird's eye view (BEV) is an important task for autonomous driving. Though this task has attracted a large amount

semantic segmentation bird's eye view autonomous driving bev transformer deformable transformer

发现论文，激发创造

使用几何和语义点云进行鸟瞰图语义分割

本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法，为了解决这个问题，提出了一种新的两阶段感知管道，它明确预测像素深度，并将它们与像素语义结合起来进行有效的推断，同时，使用抽象的高层几何特征进行转移学习，方法能够提高 24% 的 mIoU。

Jun, 2020

BEVFormer: 基于时空 Transformer 通过多相机图像学习鸟瞰视角表示

本文提出了新的 BEVFormer 框架，该框架学习使用时空变形器的统一 BEV 表示，以支持多个自主驾驶感知任务。在 nuScenes 测试集中，该方法达到了 56.9％的最新技术水平，且在低能见度条件下显着提高了速度估计和对象召回的准确性。

Mar, 2022

通过任务分解提高鸟瞰图语义分割

将鸟瞰视图中的语义分割任务分解为 BEV 地图重建和 RGB-BEV 特征对齐两个阶段，通过将 RGB 输入图像映射到第一阶段的 BEV 潜在空间，并在特征级别上直接优化两个视图之间的相关性，实现了复杂和具有挑战性场景的有效处理。

Apr, 2024

视角鸟瞰语义分割的半监督学习

本文提出了一种新颖的半监督框架，用于通过利用未标记的图像在训练过程中提高视觉鸟瞰（BEV）语义分割的性能，包括使用一致性损失约束模型在语义预测和 BEV 特征上，以及一种名为联合旋转的新颖且有效的数据增强方法，在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知，这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作，代码将公开提供。

Aug, 2023

LaRa: 多摄像头鸟瞰语义分割的潜在特征与光线

本文提出了一种基于编码解码器的自主行驶多摄像头车辆语义分割模型 LaRa，使用跨注意力机制将多个传感器的信息聚合成一组紧凑、丰富的潜在表示，进而在 BEV 空间中再次重投影，证明该模型在 nuScenes 上优于之前使用 Transformer 的最佳表现。

Jun, 2022

CoBEVT：稀疏 Transformer 的合作俯视图语义分割

本文提出了 CoBEVT，这是一个通用的多代理多摄像头感知框架，能够协同生成 BEV 地图预测。在 V2V 感知数据集 OPV2V 上的广泛实验表明，CoBEVT 实现了合作 BEV 语义分割的最先进性能。此外，CoBEVT 还可应用于其他任务，包括单代理多摄像头的 BEV 分割和多代理 LiDAR 系统的 3D 对象检测，实现了实时推理速度和最先进的性能。

Jul, 2022

多装载车辆摄像头图像转换成鸟瞰视角语义分割图像的 Sim2Real 深度学习方法

该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法，并利用神经网络进行分割和预测，以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤，通过合成数据训练神经网络，实现了对真实世界数据的普遍适用。与透视变换法相比，该方法在合成数据实验中表现出了优越性。

May, 2020

跨尺度分层 Transformer 结合语义对应增强注意力用于推断鸟瞰视角语义分割

本研究提出了一种基于跨尺度分层 Transformer 和对应增强注意力的语义分割训练方法，针对使用多相机视图图像进行 Bird's-eye-view（BEV）语义分割的问题，并在大量实验中证明了其性能优越性。

Apr, 2023

GitNet: 基于几何先验的鸟瞰图分割变换

本文介绍了一种名为 GitNet 的新型两阶段几何先验变换框架，以解决从单眼图像估计 BEV（鸟瞰图）语义地图的挑战，从而为自动驾驶提供强大的空间表示能力。GitNet 通过先进行几何引导的预对齐，然后再运用基于射线的变换模型进行分割来分别对 BEV 分割进行处理，具有较好的性能表现。

Apr, 2022

鸟瞰图分割中的视角鲁棒性

自动驾驶车辆需要神经网络在感知方面能够适应不同的视角，以便在多种类型的车辆中使用而无需重复地进行数据收集和标注。本研究通过大量实验发现，现有的感知模型对于摄像机视角的变化非常敏感，因此提出了一种方法来在车辆类型之间进行缩放，从而避免了额外的数据收集和标注成本，并通过引入新颖的视图合成技术，训练适用于各种车辆类型的鸟瞰图分割模型。

Sep, 2023