Oct, 2023

Talk2BEV: 自然语言增强的自动驾驶鸟瞰地图

TL;DRTalk2BEV 是一个面向自动驾驶环境中鸟瞰地图的大规模视觉语言模型接口。它将语言和视觉模型与 BEV 结构化地图相结合,消除了任务特定模型的需求,从而能够满足各种自动驾驶任务,包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索的决策。在大量场景理解任务上对 Talk2BEV 进行了广泛评估,并发布了包含 1000 个人工注释的 BEV 场景的基准数据集 Talk2BEV-Bench,其中包含超过 20,000 个问题和真实答案。