BEV-CLIP: 复杂场景下自动驾驶的多模态 BEV 检索方法

CVPRJan, 2024

BEV-CLIP: 复杂场景下自动驾驶的多模态 BEV 检索方法

BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

Dafeng Wei, Tian Gao, Zhengyu Jia, Changwei Cai, Chengkai Hou...

TL;DR我们提出了第一种多模式 Bird's-Eye View（BEV）检索方法 BEV-CLIP，它利用描述性文本作为输入来检索相应的场景，通过利用大型语言模型（LLM）的语义特征提取能力来实现零样本检索，并结合来自知识图的半结构化信息来提高语义丰富性和嵌入的多样性，我们的实验结果在 NuScenes 数据集的文本到 BEV 特征检索上达到了 87.66% 的准确率，我们论文中的示例案例支持我们的检索方法也可以有效识别某些长尾场景。

Abstract

The demand for the retrieval of complex scene data in autonomous driving is increasing, especially as passenger vehicles have been equipped with the ability to navigate urban settings, with the imperative to addr

autonomous driving complex scene data bev-clip multimodal retrieval methodology semantic feature extraction

发现论文，激发创造

CLIP-BEVFormer: 使用真实流增强的多视角基于图像的 BEV 检测器

通过对比学习技术提高多视角图像生成的 Bird's Eye View 模型，在自动驾驶领域中取得重大且一致的性能改进，特别是在 3D 目标检测任务中，相比前一最佳模型，NDS 和 mAP 分别提高了 8.5% 和 9.2%。

Mar, 2024

BEV-Locator: 一种使用多视角图像的端到端视觉语义定位网络

本文提出了一种基于多视角摄像机图像的端到端视觉语义定位神经网络 BEV-Locator，并通过大规模 nuScenes 和 Qcraft 数据集的实验结果证明该方法能够有效地关联来自多视角图像和全局语义地图的跨模态信息，可以在多种场景下估计车辆姿态，实验结果表明其横向、长向平移和航向角度的平均绝对误差分别为 0.052m，0.135m 和 0.251 度。

Nov, 2022

Talk2BEV: 自然语言增强的自动驾驶鸟瞰地图

Talk2BEV 是一个面向自动驾驶环境中鸟瞰地图的大规模视觉语言模型接口。它将语言和视觉模型与 BEV 结构化地图相结合，消除了任务特定模型的需求，从而能够满足各种自动驾驶任务，包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索的决策。在大量场景理解任务上对 Talk2BEV 进行了广泛评估，并发布了包含 1000 个人工注释的 BEV 场景的基准数据集 Talk2BEV-Bench，其中包含超过 20,000 个问题和真实答案。

Oct, 2023

基于混合二维语义场景生成的 LiDAR 三维物体检测

本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法，并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号，实验证明该设计可以轻松集成到大多数先进的三维物体检测器中，并始终改善基线模型。

Apr, 2023

视角鸟瞰语义分割的半监督学习

本文提出了一种新颖的半监督框架，用于通过利用未标记的图像在训练过程中提高视觉鸟瞰（BEV）语义分割的性能，包括使用一致性损失约束模型在语义预测和 BEV 特征上，以及一种名为联合旋转的新颖且有效的数据增强方法，在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知，这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作，代码将公开提供。

Aug, 2023

C-BEV：用于跨视角图像检索和 3DoF 姿态估计的对比鸟瞰视角训练

使用鸟瞰图作为嵌入表示的新型可训练的检索体系结构，在交叉视图地理定位任务中表现出色，特别在挑战性的多对一情景中有效，并且能够推断匹配航空图像上的 3 自由度摄像机姿态，甚至比明确通过度量真值进行培训的最新方法具有更低的平均姿态误差。

Dec, 2023

基于场景图的图像检索 -- CLEVR 数据集的案例研究

本研究论文提出了基于神经符号方法，利用场景图像来进行文本图像检索的解决方案，并训练了一种可学习的图匹配算法来实现检索任务，并实现了一个基于交互式问答的迭代检索框架。

Nov, 2019

U-BEV: 高度感知的鸟瞰图分割与基于神经地图的重定位

提出了一种名为 U-BEV 的神经网络架构，通过多个高度层次的场景推理和 SD-map 数据的可微模板匹配，有效改善了车辆重定位性能。该方法在 nuScenes 数据集上的实验结果显示，相较于其他相似复杂度的基于 BEV 和 Transformer 的方法，综合性能提高了 1.7-2.8 mIoU，重现率提高了超过 26%。

Oct, 2023

CoBEVT：稀疏 Transformer 的合作俯视图语义分割

本文提出了 CoBEVT，这是一个通用的多代理多摄像头感知框架，能够协同生成 BEV 地图预测。在 V2V 感知数据集 OPV2V 上的广泛实验表明，CoBEVT 实现了合作 BEV 语义分割的最先进性能。此外，CoBEVT 还可应用于其他任务，包括单代理多摄像头的 BEV 分割和多代理 LiDAR 系统的 3D 对象检测，实现了实时推理速度和最先进的性能。

Jul, 2022

使用几何和语义点云进行鸟瞰图语义分割

本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法，为了解决这个问题，提出了一种新的两阶段感知管道，它明确预测像素深度，并将它们与像素语义结合起来进行有效的推断，同时，使用抽象的高层几何特征进行转移学习，方法能够提高 24% 的 mIoU。

Jun, 2020