三维车道检测中用于 BEV 和车道表示同时学习的高效 Transformer

Jun, 2023

三维车道检测中用于 BEV 和车道表示同时学习的高效 Transformer

An Efficient Transformer for Simultaneous Learning of BEV and Lane Representations in 3D Lane Detection

Ziye Chen, Kate Smith-Miles, Bo Du, Guoqi Qian, Mingming Gong

TL;DR本文提出一种基于分解交叉注意机制的 3D 车道检测模型，通过学习车道特征和鸟瞰视图特征之间的交叉关系，实现了更准确的视图转换和车道检测。

Abstract

Accurately detecting lane lines in 3D space is crucial for autonomous driving. Existing methods usually first transform image-view features into bird-eye-view (BEV) by aid of inverse perspective mapping (IPM), and then detect lane lines based on the BEV features. However, IPM ignores the changes in road height, leading to inaccurate view transformations. Add

autonomous driving 3d lane detection cross-attention mechanism view transformation openlane

发现论文，激发创造

BEV-LaneDet: 一种简单有效的 3D 车道线检测基线模型

本文提出了一种高效坚韧的单目三维车道检测方法 BEV-LaneDet，通过引入虚拟相机、关键点表示方法和空间变换金字塔模块，能够更好地处理多样的三维车道结构，并在检测准确率上表现出色。

Oct, 2022

CurveFormer++：基于曲线传播的 3D 车道检测，带有时间曲线查询和注意力机制

CurveFormer++ 是一种基于 Transformer 的单阶段方法，不需要图像特征视图转换模块，直接从透视图像特征中推断出三维车道检测结果。

Feb, 2024

DV-3DLane：基于双视角表示的端到端多模态三维车道检测

提出了一种新颖的端到端双视多模态三维车道检测框架 DV-3DLane，通过协同利用图像和激光雷达点的优势，在双视图空间中学习多模态特征并利用它们生成车道检测查询，实现准确的三维车道检测。在公开基准 OpenLane 上进行的广泛实验表明，DV-3DLane 具有高效性能，F1 得分提高了 11.2%，错误率大幅减少了 53.5%。

Jun, 2024

基于几何结构先验的 BEV 重建三维车道检测方法

本研究提出了一种新的方法来解决通过利用 2D 到 3D 车道重建过程底层的几何结构来摆脱单目 3D 车道检测问题的方法，并使用结构先验来实现从局部到全局的三维车道重建，通过直接从前视图图像中提取 BEV 车道信息和任务特定的数据增强方法来降低 2D 车道表示中的结构损失，提高广义性；实验证明，该方法在 82 FPS 的实时速度下优于现有方法 3.8％的 F-Score。

Jun, 2022

PersFormer：基于透视变换和 OpenLane 基准的 3D 车道检测

PersFormer 是一种新型的端到端基于 Transformer 的单目 3D 车道检测器，该模型通过参考相机参数生成前视局部区域的鸟瞰图特征向量，并采用统一的 2D/3D 车道锚设计和辅助任务来同时检测 2D/3D 车道线，同时释放了针对车道检测以及其他工业相关的自动驾驶方法的大型真实世界 3D 车道数据集 OpenLane，该数据集包含 200,000 帧、880,000 个实例级车道、14 个车道类别以及场景标签和封闭路径对象注释，证明 PersFormer 在 3D 车道检测任务上明显优于竞争基线，并且在 OpenLane 的 2D 任务中与现有技术水平相当。

Mar, 2022

LATR：基于 Transformer 的单目图像三维车道检测

我们提出了一种新颖的 LATR 模型，这是一种基于前视 3D 感知特征的端到端三维车道检测器，通过使用查询和键值对的交叉注意力来检测三维车道，并通过使用车道感知查询生成器和动态三维地面位置嵌入来构建。该模型在合成 Apollo 和真实的 OpenLane 上优于以前的最新方法，F1 得分上的提升幅度大约为 11.4。

Aug, 2023

WidthFormer: 高效基于 Transformer 的 BEV 视角转换

通过提出的 WidthFormer 模型，本研究将 Bird's-Eye-View（BEV）3D 检测方法应用于实时自动驾驶应用，其具有计算效率高、有效、无需特殊工程部署等特点，并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息，从而实现生成高质量 BEV 表示的目标。

Jan, 2024

3D-LaneNet: 端到端 3D 多车道检测

该研究通过一种新型网络架构 3D-LaneNet 直接从单张图像中预测道路场景中 3D 车道的布局，并展示了在合成和真实数据集上的表现，其对车道合并和拆分等复杂情况的处理也更加明确，较以往方法有竞争力。

Nov, 2018

多装载车辆摄像头图像转换成鸟瞰视角语义分割图像的 Sim2Real 深度学习方法

该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法，并利用神经网络进行分割和预测，以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤，通过合成数据训练神经网络，实现了对真实世界数据的普遍适用。与透视变换法相比，该方法在合成数据实验中表现出了优越性。

May, 2020

DualBEV: CNN 是视角变换中所需的全部

Camera-based Bird's-Eye-View perception, DualBEV, eliminates the need for a resource-intensive Transformer by proposing a unified framework utilizing a shared CNN-based feature transformation, resulting in state-of-the-art performance and comparable efficiency to the Lift-Splat-Shoot approach.

Mar, 2024