May, 2024

探究多模态 LLMs 作为驾驶世界模型

TL;DR我们评估了多模态大型语言模型(MLLMs)在自动驾驶领域的应用,并挑战和验证了一些常见假设,重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足,对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景,进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力,并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距,强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。