通过使用车载摄像头在线估计语义化的鸟瞰图,本文研究了自主导航过程中的场景理解,包括图像级别理解、鸟瞰图级别理解和时间信息聚合。作者提出的新架构在鸟瞰图理解方面显著优于现有技术水平。
Dec, 2020
本文提出了一种语义感知变换的方法,将仪表板摄像机视图中的检测结果映射到场景的更广泛、俯视的占用图中,通过大量的合成数据和深度神经网络的训练实现,结果表明该模型能够在真实世界的数据上进行泛化。
Jun, 2017
自动驾驶汽车的导航系统需要准确理解周围环境,本文提出了一个替代方法,通过生成场景的顶视图,提取其他车辆相对于自我车辆的距离和方向,同时通过将透视图 RGB 图像转换为鸟瞰地图的方法,有效捕捉了自动驾驶汽车所需的重要环境信息。
Nov, 2023
本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法,为了解决这个问题,提出了一种新的两阶段感知管道,它明确预测像素深度,并将它们与像素语义结合起来进行有效的推断,同时,使用抽象的高层几何特征进行转移学习,方法能够提高 24% 的 mIoU。
Jun, 2020
提出了一个全局视角和局部先验知识相结合的双映射框架 (Bi-Mapper),包括异步相互学习策略和横跨空间损失函数 (ASL),旨在提高自动驾驶系统中道路场景语义理解的可靠性,并在 nuScenes 和 Cam2BEV 数据集上进行了验证。
May, 2023
利用 BEV 场景图编码室内环境的场景布局和几何线索以解决视觉语言导航中对于三维场景几何和全景观察选择的限制,该方法在 REVERIE、R2R 和 R4R 数据集上显著优于现有方法,展示了 BEV 感知在视觉语言导航中的潜力。
Aug, 2023
该研究旨在从单个摄像头图像中直接提取局部道路网络拓扑,使用最小回路及其覆盖来表示道路拓扑,以监督深度神经网络的学习,以实现自主规划和导航。结果表明,与基准相比,该方法在 NuScenes 和 Argoverse 基准测试上的表现显著优越。
Dec, 2021
本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法,并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号,实验证明该设计可以轻松集成到大多数先进的三维物体检测器中,并始终改善基线模型。
Apr, 2023
本文提出了一种基于图神经网络的方法,通过对于场景中物体的空间关系,从单目图像中预测出鸟瞰地图中的物体,从而解决了现有基于纹理的模型在距离摄像机较远时定位错误率增加的问题,并在三个大规模数据集上取得了最新的最佳结果,包括了相对于 nuScenes 数据集上 50% 的提升。
Apr, 2022
本文综述了关于 Bird's-eye-view(BEV)感知的最新研究工作,探讨了多传感器融合、BEV 视角下物体检测与定位等关键问题,并介绍了一系列实用的指南和工具来提高 BEV 任务的性能,最后指出了该领域未来的研究方向。
Sep, 2022