CVPRJan, 2024

BEV-CLIP: 复杂场景下自动驾驶的多模态 BEV 检索方法

TL;DR我们提出了第一种多模式 Bird's-Eye View(BEV)检索方法 BEV-CLIP,它利用描述性文本作为输入来检索相应的场景,通过利用大型语言模型(LLM)的语义特征提取能力来实现零样本检索,并结合来自知识图的半结构化信息来提高语义丰富性和嵌入的多样性,我们的实验结果在 NuScenes 数据集的文本到 BEV 特征检索上达到了 87.66% 的准确率,我们论文中的示例案例支持我们的检索方法也可以有效识别某些长尾场景。