X-Align: 鸟瞰视角分割的跨模态跨视图对齐
本文提出了一种新的跨模态和跨视角学习框架,使用基于注意力的跨模态特征融合模块和辅助 PV 分割分支,旨在提高 BEV 分割的性能。在 nuScenes 和 KITTI-360 数据集上的评估结果表明,该方法明显优于现有技术并能够更好地应用于自动驾驶。
Jun, 2023
该论文介绍了一种用于卫星和街景图像对的细粒度建筑属性分割的新方法,通过引入鸟瞰图方法解决了传统方法中建筑物立面特征获取的局限性,并通过新的卫星引导的投影模块优化了传统方法中特征分布不均匀的问题。该方法在来自多个城市的四个跨视图数据集上取得了显著的改进,与最先进的基于卫星和跨视图的方法相比,平均 mIOU 提高了 10.13% 和 5.21%。
Apr, 2024
本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法,为了解决这个问题,提出了一种新的两阶段感知管道,它明确预测像素深度,并将它们与像素语义结合起来进行有效的推断,同时,使用抽象的高层几何特征进行转移学习,方法能够提高 24% 的 mIoU。
Jun, 2020
将鸟瞰视图中的语义分割任务分解为 BEV 地图重建和 RGB-BEV 特征对齐两个阶段,通过将 RGB 输入图像映射到第一阶段的 BEV 潜在空间,并在特征级别上直接优化两个视图之间的相关性,实现了复杂和具有挑战性场景的有效处理。
Apr, 2024
使用鸟瞰图作为嵌入表示的新型可训练的检索体系结构,在交叉视图地理定位任务中表现出色,特别在挑战性的多对一情景中有效,并且能够推断匹配航空图像上的 3 自由度摄像机姿态,甚至比明确通过度量真值进行培训的最新方法具有更低的平均姿态误差。
Dec, 2023
本文提出了一种新颖的半监督框架,用于通过利用未标记的图像在训练过程中提高视觉鸟瞰(BEV)语义分割的性能,包括使用一致性损失约束模型在语义预测和 BEV 特征上,以及一种名为联合旋转的新颖且有效的数据增强方法,在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知,这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作,代码将公开提供。
Aug, 2023
跨模态无监督领域自适应旨在利用二维 - 三维数据的互补性来克服新领域中缺乏注解的问题。本研究提出了基于鸟瞰图的跨模态学习方法,用于三维语义分割的领域泛化。通过鸟瞰图下的交叉模态学习,优化了与领域无关的表示建模,同时提出了鸟瞰图驱动的领域对比学习方法来建模领域无关的表示。在三个三维数据集上,BEV-DG 在所有设置中明显优于现有方法,差距显著。
Aug, 2023
本文提出了一种名为 Graph BEV 的稳健融合框架,通过解决 LiDAR 和相机 BEV 特征之间的不准确对齐问题,实现了最先进的性能,mAP 为 70.1%,超过了 BEV Fusion 1.6%,在存在不对齐噪声的条件下超过 BEV Fusion 8.3%。
Mar, 2024
我们提出了 BEV-CV 方法,该方法通过将地面图像转化为语义鸟瞰图进行嵌入匹配,并引入了一种归一化温度缩放的交叉熵损失函数,相比标准三元损失函数具有更快的收敛速度。BEV-CV 在 70 度裁剪图上实现了最新的召回率准确性,其特征提取 Top-1 率提高了 300% 以上,Top-1% 率提高了约 150%,对于方向感知应用,我们在 70 度裁剪图上实现了 35% 的 Top-1 准确率提高。
Dec, 2023
本文介绍了一种名为 GitNet 的新型两阶段几何先验变换框架,以解决从单眼图像估计 BEV(鸟瞰图)语义地图的挑战,从而为自动驾驶提供强大的空间表示能力。GitNet 通过先进行几何引导的预对齐,然后再运用基于射线的变换模型进行分割来分别对 BEV 分割进行处理,具有较好的性能表现。
Apr, 2022