PointBeV：基于稀疏方法的 BeV 预测

Dec, 2023

PointBeV: A Sparse Approach to BeV Predictions

Loick Chambon, Eloi Zablocki, Mickael Chen, Florent Bartoccioni, Patrick Perez...

TL;DR提出了 PointBeV 方法，在稀疏的 Bird's-eye View 表示中进行分割模型操作，以有效控制内存使用，并在静态和时间设置中展示卓越性能。

Abstract

bird's-eye view (BeV) representations have emerged as the de-facto shared space in driving applications, offering a unified space for sensor data fusion and supporting various downstream tasks. However, conventional models use grids with fixed resolution and range and face computationa

bird's-eye view bev representations pointbev sparse segmentation memory-constrained platforms

发现论文，激发创造

SparseBEV: 高性能稀疏 3D 多镜头视频物体检测

SparseBEV 是一种全更稀疏的三维物体检测器，通过尺度自适应自注意力、自适应时空采样和自适应混合等关键设计，在 BEV 空间和图像空间中实现了优于稠密对应物的性能。

Aug, 2023

使用几何和语义点云进行鸟瞰图语义分割

本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法，为了解决这个问题，提出了一种新的两阶段感知管道，它明确预测像素深度，并将它们与像素语义结合起来进行有效的推断，同时，使用抽象的高层几何特征进行转移学习，方法能够提高 24% 的 mIoU。

Jun, 2020

物体作为时空 2.5D 点

提出一种基于弱监督学习的方法来估计具有鸟瞰视角位置的物体的三维位置，该方法可以在单个前馈网络过程中联合学习回归 2D 对象检测和场景深度预测，并在不需要 3D 或 BEV 注释或 LiDAR 数据的情况下对物体进行建模。

Dec, 2022

BEVerse: 基于鸟瞰视角的统一感知和预测，用于以视觉为中心的自动驾驶

该研究提出了基于多相机系统的统一三维感知和预测框架 BEVerse，通过对多相机视频生成空间 - 时间鸟瞰（BEV）表示，并同时推理多个自动驾驶视觉任务，通过在 nuScenes 数据集上的实验表明，与现有的单任务方法相比，多任务 BEVerse 在 3D 物体检测，语义地图构建和运动预测方面表现更好，同时比时序范例更加高效。

May, 2022

BEVSpread：基于扩散体素池化的鸟瞰图表示在基于视觉的路边三维物体检测中应用

基于视觉的道路三维物体检测中，提出了一种新的体素池化策略 BEVSpread，通过自适应权重将图像特征传播到周围的 BEV 格点，使得现有基于截锥体和 BEV 的方法在车辆、行人和骑行者方面得到明显的性能提升。

Jun, 2024

U-BEV: 高度感知的鸟瞰图分割与基于神经地图的重定位

提出了一种名为 U-BEV 的神经网络架构，通过多个高度层次的场景推理和 SD-map 数据的可微模板匹配，有效改善了车辆重定位性能。该方法在 nuScenes 数据集上的实验结果显示，相较于其他相似复杂度的基于 BEV 和 Transformer 的方法，综合性能提高了 1.7-2.8 mIoU，重现率提高了超过 26%。

Oct, 2023

SG-BEV：卫星导航 BEV 融合用于跨视图语义分割

该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法，通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性，并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进，与最先进的基于卫星和跨视图的方法相比，平均 mIOU 提高了 10.13% 和 5.21%。

Apr, 2024

BEVTrack：鸟瞰视角中点云跟踪的简单基准

在本文中，我们介绍了 BEVTrack，一个简单但强大的三维单目标跟踪基线框架。通过将连续的点云转换成常见的鸟瞰图表示，BEVTrack 通过简单的逐元素操作和卷积层，天然地编码了空间邻近性并熟练地捕捉运动线索，同时直接学习目标的运动分布，而无需假定固定的拉普拉斯或高斯。BEVTrack 在 KITTI 和 NuScenes 数据集上取得了最先进的性能，并且推理速度高达 122 帧 / 秒。

Sep, 2023

BEVFormer: 基于时空 Transformer 通过多相机图像学习鸟瞰视角表示

本文提出了新的 BEVFormer 框架，该框架学习使用时空变形器的统一 BEV 表示，以支持多个自主驾驶感知任务。在 nuScenes 测试集中，该方法达到了 56.9％的最新技术水平，且在低能见度条件下显着提高了速度估计和对象召回的准确性。

Mar, 2022

利用 BEV 表示进行 360 度视觉地点识别

本文探讨了采用鸟瞰图在 360 度视觉地点识别（VPR）中的优势，提出了一种利用 BEV 表示的新型网络架构，该架构将视觉线索和空间感知进行桥接，并在两个数据集上进行了验证。

May, 2023