Aug, 2024

CoVLA:用于自动驾驶的综合视觉-语言-动作数据集

TL;DR本研究解决了自动驾驶中缺乏大规模注释数据集的问题,提出了CoVLA数据集,该数据集包含超过80小时的真实驾驶视频,并通过自动化数据处理生成准确的驾驶轨迹及详细的自然语言描述。研究表明,利用此数据集的多模态大语言模型在处理视觉、语言和动作方面表现出强大的能力,对推动自动驾驶领域的发展具有重要潜力。