Sep, 2023

自动驾驶的语言提示

TL;DR提出了第一个针对 3D、多视角和多帧空间中驾驶场景的以物体为中心的语言提示集 NuPrompt,并构建了包括 35,367 个语言描述的新的基准数据集。基于该数据集,提出了一种以语言提示为基础的驾驶任务,使用语言提示来预测描述物体在不同视角和帧中的轨迹,并提供了一个简单的基于 Transformer 的端到端基准模型 PromptTrack,实验结果表明 PromptTrack 在 NuPrompt 上取得了令人印象深刻的性能。希望这项工作能为自动驾驶社区提供更多的新见解。数据集和代码将在此 https URL 公开。