WidthFormer: 高效基于 Transformer 的 BEV 视角转换

Jan, 2024

WidthFormer: 高效基于 Transformer 的 BEV 视角转换

WidthFormer: Toward Efficient Transformer-based BEV View Transformation

Chenhongyi Yang, Tianwei Lin, Lichao Huang, Elliot J. Crowley

TL;DR通过提出的 WidthFormer 模型，本研究将 Bird's-Eye-View（BEV）3D 检测方法应用于实时自动驾驶应用，其具有计算效率高、有效、无需特殊工程部署等特点，并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息，从而实现生成高质量 BEV 表示的目标。

Abstract

In this work, we present widthformer, a novel transformer-based Bird's-Eye-View (BEV) 3D detection method tailored for real-time autonomous-driving applications. →

widthformer bird's-eye-view (bev) 3d detection transformer-based real-time autonomous-driving 3d positional encoding mechanism

发现论文，激发创造

BEVFormer: 基于时空 Transformer 通过多相机图像学习鸟瞰视角表示

本文提出了新的 BEVFormer 框架，该框架学习使用时空变形器的统一 BEV 表示，以支持多个自主驾驶感知任务。在 nuScenes 测试集中，该方法达到了 56.9％的最新技术水平，且在低能见度条件下显着提高了速度估计和对象召回的准确性。

Mar, 2022

VoxelFormer：基于双视图注意力的鸟瞰特征生成，用于多视角 3D 物体检测

本文研究了基于 Transformer 的目标检测器在多视角三维物体检测领域的局限性，并从鸟瞰图特征生成的角度提出了新的双视角注意力特征生成方法，将其应用于 BEVFormer 架构中，建立了一种新的检测器 VoxelFormer，实验结果表明其性能在 nuScenes 基准测试中显著优于 BEVFormer。

Apr, 2023

BEVSegFormer: 任意相机架构的鸟瞰视角语义分割

本文介绍了 BEVSegFormer，一种有效的基于转换器的方法，用于从任意摄像机装置进行 BEV 语义分割。

Mar, 2022

FusionFormer：鸟瞰视图和时间一致 Transformer 的多感知融合用于 3D 目标

多传感器模态融合的 FusionFormer 框架通过 transformers 混合多模态特征，获取鸟瞰图特征，并通过可灵活适应输入模态表示的深度预测分支提高相机检测任务的性能，同时提出一种基于 transformers 的即插即用的时域融合模块用于融合历史帧鸟瞰图特征，实现更稳定可靠的检测结果，通过对 nuScenes 数据集的评估，其在 3D 目标检测任务中获得了 72.6％的 mAP 和 75.1％的 NDS，优于现有的最先进方法。

Sep, 2023

HeightFormer: 鸟瞰视角的摄像头仅使用，无需额外数据的显性高度建模的 3D 物体检测

通过显式地在鸟瞰视角空间中建模高度的方式，我们提出了 HeightFormer 方法，该方法可以准确地估计鸟瞰视角中的高度，而无需使用额外数据。基准结果显示，与仅使用相机的方法相比，HeightFormer 的性能达到了最先进水平。

Jul, 2023

OccFormer: 双路径 Transformer 用于基于视觉的 3D 语义占用预测

本文介绍了 OccFormer，一种双路径 Transformer 网络，有效地处理了用于自主驾驶的 3D 立体体素特征，并在 SemanticKITTI 数据集上对语义完整性和 nuScenes 数据集上的 LiDAR 语义分割方面优于现有方法。

Apr, 2023

自动驾驶中鸟瞰空间高效三维物体检测的卷积网络方法

3D 物体检测在俯视（Bird's-Eye-View）空间中最近成为自动驾驶领域的一种普遍方法。本研究提出了一种高效的基于 BEV 的 3D 检测框架 BEVENet，通过采用仅卷积的架构设计，克服了 ViT 模型的局限性，同时保持了 BEV 方法的有效性。实验证明，BEVENet 在 NuScenes 挑战赛中比当代最先进方法快 3 倍，同时在 NuScenes 验证数据集上获得 0.456 的平均精确度（mAP）和 0.555 的 nuScenes 检测分数（NDS），推断速度为 47.6 帧每秒。据我们所知，这是首次实现如此显著的 BEV 方法效率改进的研究，突显了它们在实际自动驾驶应用中的可行性提升。

Dec, 2023

三维车道检测中用于 BEV 和车道表示同时学习的高效 Transformer

本文提出一种基于分解交叉注意机制的 3D 车道检测模型，通过学习车道特征和鸟瞰视图特征之间的交叉关系，实现了更准确的视图转换和车道检测。

Jun, 2023

BEVNeXt：复兴稠密的 BEV 框架用于三维物体检测

通过引入增强模块，包括强制物体一致性的 CRF 调制深度估计模块、具有扩展感受域的长期时域聚合模块和结合透视技术与 CRF 调制深度嵌入的两阶段物体解码器，本文旨在解决现有密集 BEV 基础的三维物体检测器的缺点。经过这些增强组件，我们提出的 BEVNeXt 框架在 nuScenes 基准上在不同设置下优于 BEV 基础和查询基础框架，实现了 nuScenes 测试集上 64.2 NDS 的最新结果。

Dec, 2023

OCBEV: 基于物体的 BEV Transformer 用于多视角 3D 物体检测

提出了一种新的 Object-Centric query-BEV 检测器 OCBEV 方法，它可以更有效地针对动态场景中移动目标的时间和空间线索。经过在挑战性的 nuScenes 数据集进行广泛实验评估后，该方法取得了最先进的结果，比传统的 BEVFormer 提高了 1.5 个 NDS 点，并具有更快的收敛速度和更少的训练迭代次数来达到相似的性能。

Jun, 2023