三维车道检测中用于 BEV 和车道表示同时学习的高效 Transformer
本文提出了一种高效坚韧的单目三维车道检测方法 BEV-LaneDet, 通过引入虚拟相机、关键点表示方法和空间变换金字塔模块,能够更好地处理多样的三维车道结构,并在检测准确率上表现出色。
Oct, 2022
CurveFormer++ 是一种基于 Transformer 的单阶段方法,不需要图像特征视图转换模块,直接从透视图像特征中推断出三维车道检测结果。
Feb, 2024
提出了一种新颖的端到端双视多模态三维车道检测框架 DV-3DLane,通过协同利用图像和激光雷达点的优势,在双视图空间中学习多模态特征并利用它们生成车道检测查询,实现准确的三维车道检测。在公开基准 OpenLane 上进行的广泛实验表明,DV-3DLane 具有高效性能,F1 得分提高了 11.2%,错误率大幅减少了 53.5%。
Jun, 2024
本研究提出了一种新的方法来解决通过利用 2D 到 3D 车道重建过程底层的几何结构来摆脱单目 3D 车道检测问题的方法,并使用结构先验来实现从局部到全局的三维车道重建,通过直接从前视图图像中提取 BEV 车道信息和任务特定的数据增强方法来降低 2D 车道表示中的结构损失,提高广义性;实验证明,该方法在 82 FPS 的实时速度下优于现有方法 3.8%的 F-Score。
Jun, 2022
PersFormer 是一种新型的端到端基于 Transformer 的单目 3D 车道检测器,该模型通过参考相机参数生成前视局部区域的鸟瞰图特征向量,并采用统一的 2D/3D 车道锚设计和辅助任务来同时检测 2D/3D 车道线,同时释放了针对车道检测以及其他工业相关的自动驾驶方法的大型真实世界 3D 车道数据集 OpenLane,该数据集包含 200,000 帧、880,000 个实例级车道、14 个车道类别以及场景标签和封闭路径对象注释,证明 PersFormer 在 3D 车道检测任务上明显优于竞争基线,并且在 OpenLane 的 2D 任务中与现有技术水平相当。
Mar, 2022
我们提出了一种新颖的 LATR 模型,这是一种基于前视 3D 感知特征的端到端三维车道检测器,通过使用查询和键值对的交叉注意力来检测三维车道,并通过使用车道感知查询生成器和动态三维地面位置嵌入来构建。该模型在合成 Apollo 和真实的 OpenLane 上优于以前的最新方法,F1 得分上的提升幅度大约为 11.4。
Aug, 2023
通过提出的 WidthFormer 模型,本研究将 Bird's-Eye-View(BEV)3D 检测方法应用于实时自动驾驶应用,其具有计算效率高、有效、无需特殊工程部署等特点,并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息,从而实现生成高质量 BEV 表示的目标。
Jan, 2024
该研究通过一种新型网络架构 3D-LaneNet 直接从单张图像中预测道路场景中 3D 车道的布局,并展示了在合成和真实数据集上的表现,其对车道合并和拆分等复杂情况的处理也更加明确,较以往方法有竞争力。
Nov, 2018
该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法,并利用神经网络进行分割和预测,以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤,通过合成数据训练神经网络,实现了对真实世界数据的普遍适用。与透视变换法相比,该方法在合成数据实验中表现出了优越性。
May, 2020
Camera-based Bird's-Eye-View perception, DualBEV, eliminates the need for a resource-intensive Transformer by proposing a unified framework utilizing a shared CNN-based feature transformation, resulting in state-of-the-art performance and comparable efficiency to the Lift-Splat-Shoot approach.
Mar, 2024