May, 2023

NuScenes-QA: 一个针对自主驾驶场景的多模态视觉问答基准测试

TL;DR我们介绍了一个新颖的视觉问答(VQA)任务,旨在回答基于街景线索的自然语言问题,在自动驾驶情境下。我们提出了 NuScenes-QA,这是第一个针对自动驾驶场景下的 VQA 任务的基准,包括 34K 个视觉场景和 460K 个问题 - 答案对。我们利用现有的 3D 检测注释生成场景图,并手动设计问题模板。这个基准是一个平衡的大规模基准,具有多种问题格式。