BEVFormer: 基于时空 Transformer 通过多相机图像学习鸟瞰视角表示

ECCVMar, 2022

BEVFormer: 基于时空 Transformer 通过多相机图像学习鸟瞰视角表示

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima...

TL;DR本文提出了新的 BEVFormer 框架，该框架学习使用时空变形器的统一 BEV 表示，以支持多个自主驾驶感知任务。在 nuScenes 测试集中，该方法达到了 56.9％的最新技术水平，且在低能见度条件下显着提高了速度估计和对象召回的准确性。

Abstract

3d visual perception tasks, including 3D detection and map segmentation based on multi-camera images, are essential for autonomous driving systems. In this work, we present a new framework termed →

3d visual perception autonomous driving bevformer spatiotemporal transformers nds metric

发现论文，激发创造

BEVSegFormer: 任意相机架构的鸟瞰视角语义分割

本文介绍了 BEVSegFormer，一种有效的基于转换器的方法，用于从任意摄像机装置进行 BEV 语义分割。

Mar, 2022

UniFusion：用于鸟瞰图空时表示的统一多视角融合变压器

本文提出一种新的空时融合 BEV 表征方法，可支持长距离融合，具有时变自适应权重，有效避免传统方法中的信息丢失和充分利用功能，同时实现地图分割任务的最优性能。

Jul, 2022

BEVerse: 基于鸟瞰视角的统一感知和预测，用于以视觉为中心的自动驾驶

该研究提出了基于多相机系统的统一三维感知和预测框架 BEVerse，通过对多相机视频生成空间 - 时间鸟瞰（BEV）表示，并同时推理多个自动驾驶视觉任务，通过在 nuScenes 数据集上的实验表明，与现有的单任务方法相比，多任务 BEVerse 在 3D 物体检测，语义地图构建和运动预测方面表现更好，同时比时序范例更加高效。

May, 2022

WidthFormer: 高效基于 Transformer 的 BEV 视角转换

通过提出的 WidthFormer 模型，本研究将 Bird's-Eye-View（BEV）3D 检测方法应用于实时自动驾驶应用，其具有计算效率高、有效、无需特殊工程部署等特点，并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息，从而实现生成高质量 BEV 表示的目标。

Jan, 2024

FusionFormer：鸟瞰视图和时间一致 Transformer 的多感知融合用于 3D 目标

多传感器模态融合的 FusionFormer 框架通过 transformers 混合多模态特征，获取鸟瞰图特征，并通过可灵活适应输入模态表示的深度预测分支提高相机检测任务的性能，同时提出一种基于 transformers 的即插即用的时域融合模块用于融合历史帧鸟瞰图特征，实现更稳定可靠的检测结果，通过对 nuScenes 数据集的评估，其在 3D 目标检测任务中获得了 72.6％的 mAP 和 75.1％的 NDS，优于现有的最先进方法。

Sep, 2023

VoxelFormer：基于双视图注意力的鸟瞰特征生成，用于多视角 3D 物体检测

本文研究了基于 Transformer 的目标检测器在多视角三维物体检测领域的局限性，并从鸟瞰图特征生成的角度提出了新的双视角注意力特征生成方法，将其应用于 BEVFormer 架构中，建立了一种新的检测器 VoxelFormer，实验结果表明其性能在 nuScenes 基准测试中显著优于 BEVFormer。

Apr, 2023

CoBEVT：稀疏 Transformer 的合作俯视图语义分割

本文提出了 CoBEVT，这是一个通用的多代理多摄像头感知框架，能够协同生成 BEV 地图预测。在 V2V 感知数据集 OPV2V 上的广泛实验表明，CoBEVT 实现了合作 BEV 语义分割的最先进性能。此外，CoBEVT 还可应用于其他任务，包括单代理多摄像头的 BEV 分割和多代理 LiDAR 系统的 3D 对象检测，实现了实时推理速度和最先进的性能。

Jul, 2022

SparseBEV: 高性能稀疏 3D 多镜头视频物体检测

SparseBEV 是一种全更稀疏的三维物体检测器，通过尺度自适应自注意力、自适应时空采样和自适应混合等关键设计，在 BEV 空间和图像空间中实现了优于稠密对应物的性能。

Aug, 2023

OCBEV: 基于物体的 BEV Transformer 用于多视角 3D 物体检测

提出了一种新的 Object-Centric query-BEV 检测器 OCBEV 方法，它可以更有效地针对动态场景中移动目标的时间和空间线索。经过在挑战性的 nuScenes 数据集进行广泛实验评估后，该方法取得了最先进的结果，比传统的 BEVFormer 提高了 1.5 个 NDS 点，并具有更快的收敛速度和更少的训练迭代次数来达到相似的性能。

Jun, 2023

TempBEV: 结合图像与 BEV 空间的时间聚合以改进学习的 BEV 编码器

通过融合多个传感器数据，通过学习的鸟瞰图编码器将不同视角的相机数据映射到一个联合的潜在空间中，通过在时域中聚合传感器信息，特别是单眼相机系统中缺乏明确的深度和速度测量时，能够进一步提高准确性。在文献中分析了鸟瞰图编码器并比较了它们的有效性，量化了聚合操作和潜在表示的影响。因此，我们开发了一种新颖的时域鸟瞰图编码器 TempBEV，它整合了来自两个潜在空间的聚合时域信息，并通过光流估计方法进行时域立体编码。在 NuScenes 数据集上的实证评估表明，TempBEV 在三维物体检测和鸟瞰图分割方面相比基线有显著改进。消融分析揭示了图像和鸟瞰图潜在空间中联合时域聚合的强大协同效应。这些结果表明了我们方法的整体有效性，并强烈支持在图像和鸟瞰图潜在空间中聚合时域信息。

Apr, 2024