利用 BEV 表示进行 360 度视觉地点识别
通过利用鸟瞰视角中的结构线索,我们提出了一种新的基于图像的视觉位置识别(VPR)框架。该框架能够仅基于单个摄像头生成具有视觉线索和空间感知的复合描述符。在我们收集的 VPR-NuScenes 数据集上的实验证明,与其他常用的基于相机的 VPR 聚合模块相比,我们的 BEV2PR 框架在 Recall@1 上取得了 2.47% 的绝对增益,并在难样本上取得了 18.06% 的增益。
Mar, 2024
本文综述了关于 Bird's-eye-view(BEV)感知的最新研究工作,探讨了多传感器融合、BEV 视角下物体检测与定位等关键问题,并介绍了一系列实用的指南和工具来提高 BEV 任务的性能,最后指出了该领域未来的研究方向。
Sep, 2022
本文评估了多种具有代表性的模型在各种情况下的自然和对抗鲁棒性,以全面了解它们如何受到包含和不包含 Bird's-Eye-View 特征的影响,重点关注自主驾驶安全问题,发现了一些警示性的结论。
Mar, 2023
使用鸟瞰图作为嵌入表示的新型可训练的检索体系结构,在交叉视图地理定位任务中表现出色,特别在挑战性的多对一情景中有效,并且能够推断匹配航空图像上的 3 自由度摄像机姿态,甚至比明确通过度量真值进行培训的最新方法具有更低的平均姿态误差。
Dec, 2023
通过设计评估鲁棒性的 RoboBEV 基准套件,我们评估了包括检测、地图分割、深度估计和占用预测在内的 33 种 BEV 感知模型的性能,并观察到在分布内数据表现良好的模型对分布外挑战具有鲁棒性,同时也强调了预训练和无深度 BEV 变换等策略在提高对分布外数据鲁棒性方面的有效性。
May, 2024
提出了一种新模型,能够对任何第一人称视角的感知模态进行零样本投影到对应的鸟瞰图,该模型通过将几何逆透视投影与模态转换进行解耦合,实验结果表明该模型优于竞争方法,尤其是单目深度估计。
Feb, 2024
本文提出了新的 BEVFormer 框架,该框架学习使用时空变形器的统一 BEV 表示,以支持多个自主驾驶感知任务。在 nuScenes 测试集中,该方法达到了 56.9%的最新技术水平,且在低能见度条件下显着提高了速度估计和对象召回的准确性。
Mar, 2022
本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法,为了解决这个问题,提出了一种新的两阶段感知管道,它明确预测像素深度,并将它们与像素语义结合起来进行有效的推断,同时,使用抽象的高层几何特征进行转移学习,方法能够提高 24% 的 mIoU。
Jun, 2020
本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法,并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号,实验证明该设计可以轻松集成到大多数先进的三维物体检测器中,并始终改善基线模型。
Apr, 2023
使用 RoboBEV 基准套件从多个角度评估不同 Bird's eye view 模型的鲁棒性,发现模型在内分布数据集上的表现与在分布外数据集上的性能存在强烈的相关性,但也存在不同方法相对性能差异较大的问题。同时,预训练和无深度 BEV 转换具有增强分布外鲁棒性的潜力,使用富含时间信息的数据也可以大大提高模型的鲁棒性。
Apr, 2023