C-BEV:用于跨视角图像检索和 3DoF 姿态估计的对比鸟瞰视角训练
我们提出了 BEV-CV 方法,该方法通过将地面图像转化为语义鸟瞰图进行嵌入匹配,并引入了一种归一化温度缩放的交叉熵损失函数,相比标准三元损失函数具有更快的收敛速度。BEV-CV 在 70 度裁剪图上实现了最新的召回率准确性,其特征提取 Top-1 率提高了 300% 以上,Top-1% 率提高了约 150%,对于方向感知应用,我们在 70 度裁剪图上实现了 35% 的 Top-1 准确率提高。
Dec, 2023
本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法,为了解决这个问题,提出了一种新的两阶段感知管道,它明确预测像素深度,并将它们与像素语义结合起来进行有效的推断,同时,使用抽象的高层几何特征进行转移学习,方法能够提高 24% 的 mIoU。
Jun, 2020
该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法,通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性,并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进,与最先进的基于卫星和跨视图的方法相比,平均 mIOU 提高了 10.13% 和 5.21%。
Apr, 2024
本文综述了关于 Bird's-eye-view(BEV)感知的最新研究工作,探讨了多传感器融合、BEV 视角下物体检测与定位等关键问题,并介绍了一系列实用的指南和工具来提高 BEV 任务的性能,最后指出了该领域未来的研究方向。
Sep, 2022
Camera-based Bird's-Eye-View perception, DualBEV, eliminates the need for a resource-intensive Transformer by proposing a unified framework utilizing a shared CNN-based feature transformation, resulting in state-of-the-art performance and comparable efficiency to the Lift-Splat-Shoot approach.
Mar, 2024
本文探讨了采用鸟瞰图在 360 度视觉地点识别(VPR)中的优势,提出了一种利用 BEV 表示的新型网络架构,该架构将视觉线索和空间感知进行桥接,并在两个数据集上进行了验证。
May, 2023
本文提出了一种基于多视角摄像机图像的端到端视觉语义定位神经网络 BEV-Locator,并通过大规模 nuScenes 和 Qcraft 数据集的实验结果证明该方法能够有效地关联来自多视角图像和全局语义地图的跨模态信息,可以在多种场景下估计车辆姿态,实验结果表明其横向、长向平移和航向角度的平均绝对误差分别为 0.052m,0.135m 和 0.251 度。
Nov, 2022
本文基于深度卷积神经网络,提出了一个新的框架,用于跨视角图像地理定位,包括 Faster R-CNN 和 Siamese 网络,并将其在一个新的数据集上进行了评估,结果表明该方法比其他方法具有更好的定位精度,并能够推广到未见过的位置。
Mar, 2017
本研究提出了两种简单而有效的模型(RoadBEV-mono 和 RoadBEV-stereo),分别使用单目和立体图像估计道路高程,在 Bird's-Eye-View 感知中实现对道路的可靠和准确重建。经实验证明,RoadBEV-mono 和 RoadBEV-stereo 的高程误差分别为 1.83cm 和 0.56cm,在单目图像的基础上,估计性能提高了 50%,这些模型在自动驾驶中具有实际应用的潜力,并为基于视觉的 Bird's-Eye-View 感知提供了有价值的参考。
Apr, 2024
提出了一种名为 U-BEV 的神经网络架构,通过多个高度层次的场景推理和 SD-map 数据的可微模板匹配,有效改善了车辆重定位性能。该方法在 nuScenes 数据集上的实验结果显示,相较于其他相似复杂度的基于 BEV 和 Transformer 的方法,综合性能提高了 1.7-2.8 mIoU,重现率提高了超过 26%。
Oct, 2023