双视角贴图:自动驾驶整体 BEV 语义地图
本文提出了一种基于多视角摄像机图像的端到端视觉语义定位神经网络 BEV-Locator,并通过大规模 nuScenes 和 Qcraft 数据集的实验结果证明该方法能够有效地关联来自多视角图像和全局语义地图的跨模态信息,可以在多种场景下估计车辆姿态,实验结果表明其横向、长向平移和航向角度的平均绝对误差分别为 0.052m,0.135m 和 0.251 度。
Nov, 2022
该研究提出了一种无监督学习方法,从单眼正视图像生成语义鸟瞰地图,以在自动驾驶的各种决策任务中提供强大的遮挡推理能力,其使用了 1% 的标注数据和无额外标记数据,在 KITTI-360 和 nuScenes 数据集上表现与现有最先进的方法相当。
May, 2024
通过使用车载摄像头在线估计语义化的鸟瞰图,本文研究了自主导航过程中的场景理解,包括图像级别理解、鸟瞰图级别理解和时间信息聚合。作者提出的新架构在鸟瞰图理解方面显著优于现有技术水平。
Dec, 2020
本文提出了一种语义感知变换的方法,将仪表板摄像机视图中的检测结果映射到场景的更广泛、俯视的占用图中,通过大量的合成数据和深度神经网络的训练实现,结果表明该模型能够在真实世界的数据上进行泛化。
Jun, 2017
该论文提出了一种使用多个车载摄像头获取 360 度鸟瞰图像的方法,并利用神经网络进行分割和预测,以解决单目摄像头在环境感知中的距离估计问题。该方法包括一个语义分割和遮挡区域预测步骤,通过合成数据训练神经网络,实现了对真实世界数据的普遍适用。与透视变换法相比,该方法在合成数据实验中表现出了优越性。
May, 2020
提出基于前视单目图像的局部鸟瞰地图重建新框架,利用前向到俯视图像变换(FTVP)模块中的多尺度设计和周期性一致性约束,实现低成本高效的道路与汽车区域感知以及多类别场景理解。在公共基准测试中,该方法在道路布局估计,车辆占用估计和多类别语义估计任务中均达到了最先进的性能,并且在多类别语义估计中优于所有竞争对手。
Nov, 2022
该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法,通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性,并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进,与最先进的基于卫星和跨视图的方法相比,平均 mIOU 提高了 10.13% 和 5.21%。
Apr, 2024
本文提出了一种基于图神经网络的方法,通过对于场景中物体的空间关系,从单目图像中预测出鸟瞰地图中的物体,从而解决了现有基于纹理的模型在距离摄像机较远时定位错误率增加的问题,并在三个大规模数据集上取得了最新的最佳结果,包括了相对于 nuScenes 数据集上 50% 的提升。
Apr, 2022
本文提出了 CoBEVT,这是一个通用的多代理多摄像头感知框架,能够协同生成 BEV 地图预测。在 V2V 感知数据集 OPV2V 上的广泛实验表明,CoBEVT 实现了合作 BEV 语义分割的最先进性能。此外,CoBEVT 还可应用于其他任务,包括单代理多摄像头的 BEV 分割和多代理 LiDAR 系统的 3D 对象检测,实现了实时推理速度和最先进的性能。
Jul, 2022