基于视觉驱动的二维监督微调框架用于鸟瞰视角感知
本文提出了一种利用多视角 LiDAR 返回和摄像头图像的终端到终端物体检测和轨迹预测方法,使用 Bird's-Eye View (BEV) 网络的状态 -of-the-art 融合历史 LiDAR 数据和高清地图的体素化特征来执行检测和预测任务。在此基础上,我们使用 LiDAR Range-View (RV)功能扩展了此模型,使用 LiDAR 原始信息的非量化表示。RV 特征图被投影到 BEV 中,并与计算自 LiDAR 和高清地图的 BEV 特征融合。最终输出检测和轨迹,这是一个单一的可训练终端到终端网络。在实际的无人驾驶车辆数据和公共 nuScenes 数据集上,所提出的多视角融合方法的表现都优于最先进的技术,并且增加了较少的计算成本。
Aug, 2020
本文提出了新的BEVFormer框架,该框架学习使用时空变形器的统一BEV表示,以支持多个自主驾驶感知任务。在nuScenes测试集中,该方法达到了56.9%的最新技术水平,且在低能见度条件下显着提高了速度估计和对象召回的准确性。
Mar, 2022
该研究提出了基于多相机系统的统一三维感知和预测框架BEVerse,通过对多相机视频生成空间 - 时间鸟瞰(BEV)表示,并同时推理多个自动驾驶视觉任务,通过在nuScenes数据集上的实验表明,与现有的单任务方法相比,多任务BEVerse在3D物体检测,语义地图构建和运动预测方面表现更好,同时比时序范例更加高效。
May, 2022
本研究提出BEVFusion,这是一种有效和通用的多任务多传感器融合框架,通过在共享的鸟瞰图表示空间中统一多模态特征,从根本上支持不同的3D感知任务,并在nuScenes上创立了新的技术水平
May, 2022
本文综述了关于Bird's-eye-view(BEV)感知的最新研究工作,探讨了多传感器融合、BEV视角下物体检测与定位等关键问题,并介绍了一系列实用的指南和工具来提高BEV任务的性能,最后指出了该领域未来的研究方向。
Sep, 2022
本文提出了一种有效的基于LiDAR的语义地图构建方法,其中引入了一个BEV金字塔特征解码器来学习强大的多尺度BEV特征,以大大提高基于LiDAR的方法的准确性;此外,还提出了在线相机到LiDAR蒸馏方案来促进从图像到点云的语义学习,通过对挑战性nuScenes数据集的实验结果,证明了该方法在自动驾驶中的有效性。
Apr, 2023
LiDAR在自动驾驶中具有重要作用,本文提出了一种基于LiDAR的实时多任务卷积神经网络,用于对象检测、语义分割和运动分割,并在汽车级嵌入式平台上实现了3ms延迟,取得了语义分割和运动分割的最新成果以及3D物体检测的接近最新成果。
Jul, 2023
Talk2BEV是一个面向自动驾驶环境中鸟瞰地图的大规模视觉语言模型接口。它将语言和视觉模型与BEV结构化地图相结合,消除了任务特定模型的需求,从而能够满足各种自动驾驶任务,包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索的决策。在大量场景理解任务上对Talk2BEV进行了广泛评估,并发布了包含1000个人工注释的BEV场景的基准数据集Talk2BEV-Bench,其中包含超过20,000个问题和真实答案。
Oct, 2023
本研究解决了现有鸟瞩视图分割模型在多样环境和传感器设置下的泛化性能问题,该领域目前多集中于单一数据集上的神经网络模型优化。通过跨数据集评估和多数据集训练实验,本文展示了不同传感器对模型表现的影响,强调了增强模型适应性的重要性,以提升自主驾驶中鸟瞩视图分割的可靠性。
Aug, 2024