Apr, 2024

自动化评估大型视觉语言模型对自动驾驶的极端情况

TL;DR提出了 CODA-LM,这是一个用于自动驾驶的新兴视觉 - 语言基准测试,通过利用文本而不使用图像输入,使强大的文本 - 语言模型能够评估 LVLM 在自动驾驶场景中的能力,并揭示了它们与人类偏好的更强的一致性。实验证明,即使是像 GPT-4V 这样的商用 LVLM 也无法很好地处理路上的特殊情况,这表明我们离强大的 LVLM 驱动的智能驾驶代理系统还有很长的路要走,希望 CODA-LM 能够成为推动未来发展的催化剂。