UniFusion:用于鸟瞰图空时表示的统一多视角融合变压器
本文提出了新的 BEVFormer 框架,该框架学习使用时空变形器的统一 BEV 表示,以支持多个自主驾驶感知任务。在 nuScenes 测试集中,该方法达到了 56.9%的最新技术水平,且在低能见度条件下显着提高了速度估计和对象召回的准确性。
Mar, 2022
本研究提出 BEVFusion,这是一种有效和通用的多任务多传感器融合框架,通过在共享的鸟瞰图表示空间中统一多模态特征,从根本上支持不同的 3D 感知任务,并在 nuScenes 上创立了新的技术水平
May, 2022
多传感器模态融合的 FusionFormer 框架通过 transformers 混合多模态特征,获取鸟瞰图特征,并通过可灵活适应输入模态表示的深度预测分支提高相机检测任务的性能,同时提出一种基于 transformers 的即插即用的时域融合模块用于融合历史帧鸟瞰图特征,实现更稳定可靠的检测结果,通过对 nuScenes 数据集的评估,其在 3D 目标检测任务中获得了 72.6%的 mAP 和 75.1%的 NDS,优于现有的最先进方法。
Sep, 2023
该研究提出了基于多相机系统的统一三维感知和预测框架 BEVerse,通过对多相机视频生成空间 - 时间鸟瞰(BEV)表示,并同时推理多个自动驾驶视觉任务,通过在 nuScenes 数据集上的实验表明,与现有的单任务方法相比,多任务 BEVerse 在 3D 物体检测,语义地图构建和运动预测方面表现更好,同时比时序范例更加高效。
May, 2022
通过融合多个传感器数据,通过学习的鸟瞰图编码器将不同视角的相机数据映射到一个联合的潜在空间中,通过在时域中聚合传感器信息,特别是单眼相机系统中缺乏明确的深度和速度测量时,能够进一步提高准确性。在文献中分析了鸟瞰图编码器并比较了它们的有效性,量化了聚合操作和潜在表示的影响。因此,我们开发了一种新颖的时域鸟瞰图编码器 TempBEV,它整合了来自两个潜在空间的聚合时域信息,并通过光流估计方法进行时域立体编码。在 NuScenes 数据集上的实证评估表明,TempBEV 在三维物体检测和鸟瞰图分割方面相比基线有显著改进。消融分析揭示了图像和鸟瞰图潜在空间中联合时域聚合的强大协同效应。这些结果表明了我们方法的整体有效性,并强烈支持在图像和鸟瞰图潜在空间中聚合时域信息。
Apr, 2024
提出了一种名为 U-BEV 的神经网络架构,通过多个高度层次的场景推理和 SD-map 数据的可微模板匹配,有效改善了车辆重定位性能。该方法在 nuScenes 数据集上的实验结果显示,相较于其他相似复杂度的基于 BEV 和 Transformer 的方法,综合性能提高了 1.7-2.8 mIoU,重现率提高了超过 26%。
Oct, 2023
多视图聚合承诺克服多目标检测和跟踪中的遮挡和漏检问题,在传统的横视图检测方法基础上,本文探索了在鸟瞰视图中进行跟踪的性能突破,通过在鸟瞰视图中进行早期融合,学习强大的重新识别特征,提高了检测和跟踪的准确性。
Oct, 2023
提出了一种空间同步的跨模态方法,通过点散射将 LiDAR BEV 分布散布到相机深度分布,增强相机 BEV 估计和精确定位,同时改善整个 BEV 空间中 LiDAR 的稀疏性,实现了广视野 BEV 感知。
Sep, 2023
通过将历史线索整合到当前 BEV 地图中,TempCoBEV 能够在协作感知中改进 BEV 地图分割的质量和可靠性。在 OPV2V 数据集上进行的广泛实验表明,TempCoBEV 在预测当前和未来的 BEV 地图分割方面比非时态模型表现更好,特别是在涉及通信故障的情景中,其整合历史线索到当前 BEV 地图的能力使预测结果在最佳通信条件下提高 2%,在通信故障下提高 19%。
Jan, 2024
该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法,通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性,并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进,与最先进的基于卫星和跨视图的方法相比,平均 mIOU 提高了 10.13% 和 5.21%。
Apr, 2024