WidthFormer: 高效基于 Transformer 的 BEV 视角转换
本文提出了新的 BEVFormer 框架,该框架学习使用时空变形器的统一 BEV 表示,以支持多个自主驾驶感知任务。在 nuScenes 测试集中,该方法达到了 56.9%的最新技术水平,且在低能见度条件下显着提高了速度估计和对象召回的准确性。
Mar, 2022
本文研究了基于 Transformer 的目标检测器在多视角三维物体检测领域的局限性,并从鸟瞰图特征生成的角度提出了新的双视角注意力特征生成方法,将其应用于 BEVFormer 架构中,建立了一种新的检测器 VoxelFormer,实验结果表明其性能在 nuScenes 基准测试中显著优于 BEVFormer。
Apr, 2023
多传感器模态融合的 FusionFormer 框架通过 transformers 混合多模态特征,获取鸟瞰图特征,并通过可灵活适应输入模态表示的深度预测分支提高相机检测任务的性能,同时提出一种基于 transformers 的即插即用的时域融合模块用于融合历史帧鸟瞰图特征,实现更稳定可靠的检测结果,通过对 nuScenes 数据集的评估,其在 3D 目标检测任务中获得了 72.6%的 mAP 和 75.1%的 NDS,优于现有的最先进方法。
Sep, 2023
通过显式地在鸟瞰视角空间中建模高度的方式,我们提出了 HeightFormer 方法,该方法可以准确地估计鸟瞰视角中的高度,而无需使用额外数据。基准结果显示,与仅使用相机的方法相比,HeightFormer 的性能达到了最先进水平。
Jul, 2023
本文介绍了 OccFormer,一种双路径 Transformer 网络,有效地处理了用于自主驾驶的 3D 立体体素特征,并在 SemanticKITTI 数据集上对语义完整性和 nuScenes 数据集上的 LiDAR 语义分割方面优于现有方法。
Apr, 2023
3D 物体检测在俯视(Bird's-Eye-View)空间中最近成为自动驾驶领域的一种普遍方法。本研究提出了一种高效的基于 BEV 的 3D 检测框架 BEVENet,通过采用仅卷积的架构设计,克服了 ViT 模型的局限性,同时保持了 BEV 方法的有效性。实验证明,BEVENet 在 NuScenes 挑战赛中比当代最先进方法快 3 倍,同时在 NuScenes 验证数据集上获得 0.456 的平均精确度(mAP)和 0.555 的 nuScenes 检测分数(NDS),推断速度为 47.6 帧每秒。据我们所知,这是首次实现如此显著的 BEV 方法效率改进的研究,突显了它们在实际自动驾驶应用中的可行性提升。
Dec, 2023
本文提出一种基于分解交叉注意机制的 3D 车道检测模型,通过学习车道特征和鸟瞰视图特征之间的交叉关系,实现了更准确的视图转换和车道检测。
Jun, 2023
通过引入增强模块,包括强制物体一致性的 CRF 调制深度估计模块、具有扩展感受域的长期时域聚合模块和结合透视技术与 CRF 调制深度嵌入的两阶段物体解码器,本文旨在解决现有密集 BEV 基础的三维物体检测器的缺点。经过这些增强组件,我们提出的 BEVNeXt 框架在 nuScenes 基准上在不同设置下优于 BEV 基础和查询基础框架,实现了 nuScenes 测试集上 64.2 NDS 的最新结果。
Dec, 2023
提出了一种新的 Object-Centric query-BEV 检测器 OCBEV 方法,它可以更有效地针对动态场景中移动目标的时间和空间线索。经过在挑战性的 nuScenes 数据集进行广泛实验评估后,该方法取得了最先进的结果,比传统的 BEVFormer 提高了 1.5 个 NDS 点,并具有更快的收敛速度和更少的训练迭代次数来达到相似的性能。
Jun, 2023