BEVControl: 通过 BEV 草图布局实现多透视一致性准确控制街景元素

Aug, 2023

BEVControl: 通过 BEV 草图布局实现多透视一致性准确控制街景元素

BEVControl: Accurately Controlling Street-view Elements with Multi-perspective Consistency via BEV Sketch Layout

Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin...

TL;DR使用合成图像来提升感知模型的性能是计算机视觉中长期存在的研究挑战，在多视角摄像头的视觉为中心的自动驾驶系统中变得更加突出，由于一些长尾场景无法收集。在 BEV 分割布局的指导下，现有的生成网络似乎在仅根据场景级度量进行评估时能够合成逼真的街景图像。然而，一旦放大，它们通常无法生成准确的前景和背景细节，如航向。为此，我们提出了一种名为 BEVControl 的两阶段生成方法，可以生成准确的前景和背景内容。与类似分割的输入不同，它还支持手绘风格的输入，这对人类进行编辑更加灵活。此外，我们提出了一个全面的多级评估协议，以公平比较生成的场景、前景对象和背景几何的质量。我们广泛的实验表明，我们的 BEVControl 在前景分割 mIoU 上比现有方法 BEVGen 有显着提升，从 5.89 到 26.80。此外，我们还证明了使用 BEVControl 生成的图像来训练下游感知模型，平均 NDS 分数提高了 1.29。

Abstract

Using synthesized images to boost the performance of perception models is a long-standing research challenge in computer vision. It becomes more eminent in visual-centric →

synthesized images perception models autonomous driving systems generative method evaluation protocol

发现论文，激发创造

SG-BEV：卫星导航 BEV 融合用于跨视图语义分割

该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法，通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性，并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进，与最先进的基于卫星和跨视图的方法相比，平均 mIOU 提高了 10.13% 和 5.21%。

Apr, 2024

使用几何和语义点云进行鸟瞰图语义分割

本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法，为了解决这个问题，提出了一种新的两阶段感知管道，它明确预测像素深度，并将它们与像素语义结合起来进行有效的推断，同时，使用抽象的高层几何特征进行转移学习，方法能够提高 24% 的 mIoU。

Jun, 2020

视角鸟瞰语义分割的半监督学习

本文提出了一种新颖的半监督框架，用于通过利用未标记的图像在训练过程中提高视觉鸟瞰（BEV）语义分割的性能，包括使用一致性损失约束模型在语义预测和 BEV 特征上，以及一种名为联合旋转的新颖且有效的数据增强方法，在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知，这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作，代码将公开提供。

Aug, 2023

从鸟瞰感知的恶魔深入探索：综述、评估与方法

本文综述了关于 Bird's-eye-view（BEV）感知的最新研究工作，探讨了多传感器融合、BEV 视角下物体检测与定位等关键问题，并介绍了一系列实用的指南和工具来提高 BEV 任务的性能，最后指出了该领域未来的研究方向。

Sep, 2022

MagicDrive: 带有多样化三维几何控制的街景生成

MagicDrive 是一种新颖的街景生成框架，通过定制的编码策略实现了包括相机姿态、道路地图和三维边界框在内的多样化三维几何控制，并采用交叉视图注意模块确保多个相机视图之间的一致性，从而实现了高保真的街景综合，捕捉了细腻的三维几何和各种场景描述，增强了 BEV 分割和三维物体检测等任务。

Oct, 2023

通过前向上视图投影实现单目 BEV 道路场景感知

提出基于前视单目图像的局部鸟瞰地图重建新框架，利用前向到俯视图像变换（FTVP）模块中的多尺度设计和周期性一致性约束，实现低成本高效的道路与汽车区域感知以及多类别场景理解。在公共基准测试中，该方法在道路布局估计，车辆占用估计和多类别语义估计任务中均达到了最先进的性能，并且在多类别语义估计中优于所有竞争对手。

Nov, 2022

CLIP-BEVFormer: 使用真实流增强的多视角基于图像的 BEV 检测器

通过对比学习技术提高多视角图像生成的 Bird's Eye View 模型，在自动驾驶领域中取得重大且一致的性能改进，特别是在 3D 目标检测任务中，相比前一最佳模型，NDS 和 mAP 分别提高了 8.5% 和 9.2%。

Mar, 2024

U-BEV: 高度感知的鸟瞰图分割与基于神经地图的重定位

提出了一种名为 U-BEV 的神经网络架构，通过多个高度层次的场景推理和 SD-map 数据的可微模板匹配，有效改善了车辆重定位性能。该方法在 nuScenes 数据集上的实验结果显示，相较于其他相似复杂度的基于 BEV 和 Transformer 的方法，综合性能提高了 1.7-2.8 mIoU，重现率提高了超过 26%。

Oct, 2023

RoadBEV：鸟瞰视角下的道路表面重建

本研究提出了两种简单而有效的模型（RoadBEV-mono 和 RoadBEV-stereo），分别使用单目和立体图像估计道路高程，在 Bird's-Eye-View 感知中实现对道路的可靠和准确重建。经实验证明，RoadBEV-mono 和 RoadBEV-stereo 的高程误差分别为 1.83cm 和 0.56cm，在单目图像的基础上，估计性能提高了 50％，这些模型在自动驾驶中具有实际应用的潜力，并为基于视觉的 Bird's-Eye-View 感知提供了有价值的参考。

Apr, 2024

多装载车辆摄像头图像转换成鸟瞰视角语义分割图像的 Sim2Real 深度学习方法

该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法，并利用神经网络进行分割和预测，以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤，通过合成数据训练神经网络，实现了对真实世界数据的普遍适用。与透视变换法相比，该方法在合成数据实验中表现出了优越性。

May, 2020