双视角贴图：自动驾驶整体 BEV 语义地图

May, 2023

双视角贴图：自动驾驶整体 BEV 语义地图

Bi-Mapper: Holistic BEV Semantic Mapping for Autonomous Driving

Siyu Li, Kailun Yang, Hao Shi, Jiaming Zhang, Jiacheng Lin...

TL;DR提出了一个全局视角和局部先验知识相结合的双映射框架 (Bi-Mapper)，包括异步相互学习策略和横跨空间损失函数 (ASL)，旨在提高自动驾驶系统中道路场景语义理解的可靠性，并在 nuScenes 和 Cam2BEV 数据集上进行了验证。

Abstract

A semantic map of the road scene, covering fundamental road elements, is an essential ingredient in autonomous driving systems. It provides important perception foundations for positioning and planning when rendered in the →

autonomous driving road scene semantic understanding bird's-eye-view bi-mapper framework asynchronous mutual learning

发现论文，激发创造

BEV-Locator: 一种使用多视角图像的端到端视觉语义定位网络

本文提出了一种基于多视角摄像机图像的端到端视觉语义定位神经网络 BEV-Locator，并通过大规模 nuScenes 和 Qcraft 数据集的实验结果证明该方法能够有效地关联来自多视角图像和全局语义地图的跨模态信息，可以在多种场景下估计车辆姿态，实验结果表明其横向、长向平移和航向角度的平均绝对误差分别为 0.052m，0.135m 和 0.251 度。

Nov, 2022

LetsMap：无监督语义 BEV 地图的表示学习

该研究提出了一种无监督学习方法，从单眼正视图像生成语义鸟瞰地图，以在自动驾驶的各种决策任务中提供强大的遮挡推理能力，其使用了 1% 的标注数据和无额外标记数据，在 KITTI-360 和 nuScenes 数据集上表现与现有最先进的方法相当。

May, 2024

通过车载摄像头理解道路语义的鸟瞰视角

通过使用车载摄像头在线估计语义化的鸟瞰图，本文研究了自主导航过程中的场景理解，包括图像级别理解、鸟瞰图级别理解和时间信息聚合。作者提出的新架构在鸟瞰图理解方面显著优于现有技术水平。

Dec, 2020

将车辆映射到鸟瞰图中的学习

本文提出了一种语义感知变换的方法，将仪表板摄像机视图中的检测结果映射到场景的更广泛、俯视的占用图中，通过大量的合成数据和深度神经网络的训练实现，结果表明该模型能够在真实世界的数据上进行泛化。

Jun, 2017

多装载车辆摄像头图像转换成鸟瞰视角语义分割图像的 Sim2Real 深度学习方法

该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法，并利用神经网络进行分割和预测，以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤，通过合成数据训练神经网络，实现了对真实世界数据的普遍适用。与透视变换法相比，该方法在合成数据实验中表现出了优越性。

May, 2020

车载图像的结构化鸟瞰交通场景理解

本论文研究使用单个车载相机图像提取代表局部道路网络的有向图，以及在鸟瞰视角下检测动态物体的问题，并验证了该方法优于基线模型的有效性。

Oct, 2021

通过前向上视图投影实现单目 BEV 道路场景感知

提出基于前视单目图像的局部鸟瞰地图重建新框架，利用前向到俯视图像变换（FTVP）模块中的多尺度设计和周期性一致性约束，实现低成本高效的道路与汽车区域感知以及多类别场景理解。在公共基准测试中，该方法在道路布局估计，车辆占用估计和多类别语义估计任务中均达到了最先进的性能，并且在多类别语义估计中优于所有竞争对手。

Nov, 2022

SG-BEV：卫星导航 BEV 融合用于跨视图语义分割

该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法，通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性，并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进，与最先进的基于卫星和跨视图的方法相比，平均 mIOU 提高了 10.13% 和 5.21%。

Apr, 2024

路灯旁的行人：自适应对象图在实时地图制作中的应用

本文提出了一种基于图神经网络的方法，通过对于场景中物体的空间关系，从单目图像中预测出鸟瞰地图中的物体，从而解决了现有基于纹理的模型在距离摄像机较远时定位错误率增加的问题，并在三个大规模数据集上取得了最新的最佳结果，包括了相对于 nuScenes 数据集上 50% 的提升。

Apr, 2022

CoBEVT：稀疏 Transformer 的合作俯视图语义分割

本文提出了 CoBEVT，这是一个通用的多代理多摄像头感知框架，能够协同生成 BEV 地图预测。在 V2V 感知数据集 OPV2V 上的广泛实验表明，CoBEVT 实现了合作 BEV 语义分割的最先进性能。此外，CoBEVT 还可应用于其他任务，包括单代理多摄像头的 BEV 分割和多代理 LiDAR 系统的 3D 对象检测，实现了实时推理速度和最先进的性能。

Jul, 2022