X-Align: 鸟瞰视角分割的跨模态跨视图对齐

Oct, 2022

X-Align: 鸟瞰视角分割的跨模态跨视图对齐

X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View Segmentation

Shubhankar Borse, Marvin Klingner, Varun Ravi Kumar, Hong Cai, Abdulaziz Almuzairee...

TL;DR本文提出了一种新颖的端到端跨模态和跨视角学习框架 X-Align，用于鸟瞰图分割，通过增强单模态特征之间的对齐，改进多模态特征的融合以及优化视角变换，该方法在 nuScenes 和 KITTI-360 两个常用的基准数据集上均有显著优势。

Abstract

bird's-eye-view (BEV) grid is a common representation for the perception of road components, e.g., drivable area, in autonomous driving. Most existing approaches rely on cameras only to perform →

bird's-eye-view autonomous driving lidar feature fusion segmentation

发现论文，激发创造

X-Align++: 用于鸟瞰图分割的跨模态跨视图对齐

本文提出了一种新的跨模态和跨视角学习框架，使用基于注意力的跨模态特征融合模块和辅助 PV 分割分支，旨在提高 BEV 分割的性能。在 nuScenes 和 KITTI-360 数据集上的评估结果表明，该方法明显优于现有技术并能够更好地应用于自动驾驶。

Jun, 2023

SG-BEV：卫星导航 BEV 融合用于跨视图语义分割

该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法，通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性，并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进，与最先进的基于卫星和跨视图的方法相比，平均 mIOU 提高了 10.13% 和 5.21%。

Apr, 2024

使用几何和语义点云进行鸟瞰图语义分割

本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法，为了解决这个问题，提出了一种新的两阶段感知管道，它明确预测像素深度，并将它们与像素语义结合起来进行有效的推断，同时，使用抽象的高层几何特征进行转移学习，方法能够提高 24% 的 mIoU。

Jun, 2020

通过任务分解提高鸟瞰图语义分割

将鸟瞰视图中的语义分割任务分解为 BEV 地图重建和 RGB-BEV 特征对齐两个阶段，通过将 RGB 输入图像映射到第一阶段的 BEV 潜在空间，并在特征级别上直接优化两个视图之间的相关性，实现了复杂和具有挑战性场景的有效处理。

Apr, 2024

C-BEV：用于跨视角图像检索和 3DoF 姿态估计的对比鸟瞰视角训练

使用鸟瞰图作为嵌入表示的新型可训练的检索体系结构，在交叉视图地理定位任务中表现出色，特别在挑战性的多对一情景中有效，并且能够推断匹配航空图像上的 3 自由度摄像机姿态，甚至比明确通过度量真值进行培训的最新方法具有更低的平均姿态误差。

Dec, 2023

视角鸟瞰语义分割的半监督学习

本文提出了一种新颖的半监督框架，用于通过利用未标记的图像在训练过程中提高视觉鸟瞰（BEV）语义分割的性能，包括使用一致性损失约束模型在语义预测和 BEV 特征上，以及一种名为联合旋转的新颖且有效的数据增强方法，在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知，这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作，代码将公开提供。

Aug, 2023

BEV-DG: 基于鸟瞰图的跨模态学习用于 3D 语义分割领域泛化

跨模态无监督领域自适应旨在利用二维 - 三维数据的互补性来克服新领域中缺乏注解的问题。本研究提出了基于鸟瞰图的跨模态学习方法，用于三维语义分割的领域泛化。通过鸟瞰图下的交叉模态学习，优化了与领域无关的表示建模，同时提出了鸟瞰图驱动的领域对比学习方法来建模领域无关的表示。在三个三维数据集上，BEV-DG 在所有设置中明显优于现有方法，差距显著。

Aug, 2023

GraphBEV：面向多模态三维物体检测的鲁棒 BEV 特征对齐

本文提出了一种名为 Graph BEV 的稳健融合框架，通过解决 LiDAR 和相机 BEV 特征之间的不准确对齐问题，实现了最先进的性能，mAP 为 70.1％，超过了 BEV Fusion 1.6％，在存在不对齐噪声的条件下超过 BEV Fusion 8.3％。

Mar, 2024

BEV-CV：鸟瞰图变换用于交叉视图地理定位

我们提出了 BEV-CV 方法，该方法通过将地面图像转化为语义鸟瞰图进行嵌入匹配，并引入了一种归一化温度缩放的交叉熵损失函数，相比标准三元损失函数具有更快的收敛速度。BEV-CV 在 70 度裁剪图上实现了最新的召回率准确性，其特征提取 Top-1 率提高了 300% 以上，Top-1% 率提高了约 150%，对于方向感知应用，我们在 70 度裁剪图上实现了 35% 的 Top-1 准确率提高。

Dec, 2023

GitNet: 基于几何先验的鸟瞰图分割变换

本文介绍了一种名为 GitNet 的新型两阶段几何先验变换框架，以解决从单眼图像估计 BEV（鸟瞰图）语义地图的挑战，从而为自动驾驶提供强大的空间表示能力。GitNet 通过先进行几何引导的预对齐，然后再运用基于射线的变换模型进行分割来分别对 BEV 分割进行处理，具有较好的性能表现。

Apr, 2022