Mar, 2025

Robusto-1 数据集:比较人类与视觉语言模型在秘鲁真实分布外自主驾驶中的表现

TL;DR本研究针对多模态基础模型在自主驾驶中的响应能力进行探讨,特别是在分布外情境下的表现,填补了这一领域的研究空白。我们提出Robusto-1数据集,利用秘鲁的行车记录视频进行比较,通过多模态视觉问答方法,发现人类与视觉语言模型在认知层面上的一致性与差异性显著取决于提问的类型,这揭示了两者认知对齐的差距。