BEVFormer: 基于时空 Transformer 通过多相机图像学习鸟瞰视角表示
本文提出一种新的空时融合 BEV 表征方法,可支持长距离融合,具有时变自适应权重,有效避免传统方法中的信息丢失和充分利用功能,同时实现地图分割任务的最优性能。
Jul, 2022
该研究提出了基于多相机系统的统一三维感知和预测框架 BEVerse,通过对多相机视频生成空间 - 时间鸟瞰(BEV)表示,并同时推理多个自动驾驶视觉任务,通过在 nuScenes 数据集上的实验表明,与现有的单任务方法相比,多任务 BEVerse 在 3D 物体检测,语义地图构建和运动预测方面表现更好,同时比时序范例更加高效。
May, 2022
通过提出的 WidthFormer 模型,本研究将 Bird's-Eye-View(BEV)3D 检测方法应用于实时自动驾驶应用,其具有计算效率高、有效、无需特殊工程部署等特点,并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息,从而实现生成高质量 BEV 表示的目标。
Jan, 2024
多传感器模态融合的 FusionFormer 框架通过 transformers 混合多模态特征,获取鸟瞰图特征,并通过可灵活适应输入模态表示的深度预测分支提高相机检测任务的性能,同时提出一种基于 transformers 的即插即用的时域融合模块用于融合历史帧鸟瞰图特征,实现更稳定可靠的检测结果,通过对 nuScenes 数据集的评估,其在 3D 目标检测任务中获得了 72.6%的 mAP 和 75.1%的 NDS,优于现有的最先进方法。
Sep, 2023
本文研究了基于 Transformer 的目标检测器在多视角三维物体检测领域的局限性,并从鸟瞰图特征生成的角度提出了新的双视角注意力特征生成方法,将其应用于 BEVFormer 架构中,建立了一种新的检测器 VoxelFormer,实验结果表明其性能在 nuScenes 基准测试中显著优于 BEVFormer。
Apr, 2023
本文提出了 CoBEVT,这是一个通用的多代理多摄像头感知框架,能够协同生成 BEV 地图预测。在 V2V 感知数据集 OPV2V 上的广泛实验表明,CoBEVT 实现了合作 BEV 语义分割的最先进性能。此外,CoBEVT 还可应用于其他任务,包括单代理多摄像头的 BEV 分割和多代理 LiDAR 系统的 3D 对象检测,实现了实时推理速度和最先进的性能。
Jul, 2022
SparseBEV 是一种全更稀疏的三维物体检测器,通过尺度自适应自注意力、自适应时空采样和自适应混合等关键设计,在 BEV 空间和图像空间中实现了优于稠密对应物的性能。
Aug, 2023
提出了一种新的 Object-Centric query-BEV 检测器 OCBEV 方法,它可以更有效地针对动态场景中移动目标的时间和空间线索。经过在挑战性的 nuScenes 数据集进行广泛实验评估后,该方法取得了最先进的结果,比传统的 BEVFormer 提高了 1.5 个 NDS 点,并具有更快的收敛速度和更少的训练迭代次数来达到相似的性能。
Jun, 2023
通过融合多个传感器数据,通过学习的鸟瞰图编码器将不同视角的相机数据映射到一个联合的潜在空间中,通过在时域中聚合传感器信息,特别是单眼相机系统中缺乏明确的深度和速度测量时,能够进一步提高准确性。在文献中分析了鸟瞰图编码器并比较了它们的有效性,量化了聚合操作和潜在表示的影响。因此,我们开发了一种新颖的时域鸟瞰图编码器 TempBEV,它整合了来自两个潜在空间的聚合时域信息,并通过光流估计方法进行时域立体编码。在 NuScenes 数据集上的实证评估表明,TempBEV 在三维物体检测和鸟瞰图分割方面相比基线有显著改进。消融分析揭示了图像和鸟瞰图潜在空间中联合时域聚合的强大协同效应。这些结果表明了我们方法的整体有效性,并强烈支持在图像和鸟瞰图潜在空间中聚合时域信息。
Apr, 2024