探究多模态 LLMs 作为驾驶世界模型

May, 2024

探究多模态 LLMs 作为驾驶世界模型

Probing Multimodal LLMs as World Models for Driving

Shiva Sreeram, Tsun-Hsuan Wang, Alaa Maalouf, Guy Rosman, Sertac Karaman...

TL;DR我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力，并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

Abstract

We provide a sober look at the application of Multimodal Large Language Models (mllms) within the domain of autonomous driving and challenge/verify some common assumptions, focusing on their ability to reason and

multimodal large language models autonomous driving dynamic driving scenarios world models mllms

发现论文，激发创造

自动驾驶的多模态大型语言模型调查

基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似，并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究，概述了多模态大型语言模型的背景、发展以及自动驾驶的历史，并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准，同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作，提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题，并呼吁学术界和工业界共同促进该领域的发展。

Nov, 2023

驾驶与 LLMs：融合物体级别向量模态进行可解释自动驾驶

基于大型语言模型的自动驾驶行动生成方法在泛化性能和可解释性方面显示出潜力，提出了一种独特的对象级多模态语言模型体系结构，将向量化数值模态与预训练的语言模型相结合，以提高驾驶情境的上下文理解能力，通过新的数据集和评估度量，展示了该方法在解释驾驶情境、回答问题和决策等方面的能力。

Oct, 2023

自动驾驶中基于大型语言模型的超对齐框架

我们的研究引入了一个新的安全框架，利用多智能体大语言模型（LLMs）来保护自动驾驶车辆的敏感信息，同时确保 LLM 的输出符合驾驶规定和符合人类价值观。我们使用该框架评估了 11 个大语言模型驱动的自动驾驶提示的安全性、隐私性和成本方面，并对这些驾驶提示进行了问答测试，成功地证明了该框架的有效性。

Jun, 2024

自动驾驶的大型语言模型调查

自动驾驶技术是改变交通运输和城市流动性的催化剂，从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用，并评估了当前技术进展、主要挑战和未来方向。

Nov, 2023

使用 LLMs 增强端到端自主驾驶模仿学习的多模态记号提示

利用大型语言模型（LLMs）与强化学习相结合的混合端到端学习框架，通过基于多模态提示标记的基本驾驶模仿学习与 LLMs 的结合，来提高自动驾驶性能。

Apr, 2024

自主驾驶决策中大型语言模型的评估

利用大型语言模型（LLM）在自动驾驶中的相关能力进行定量研究，评估了 LLM 在空间识别、空间感知决策和遵守交通规则方面的准确性，并开发了一个使用 LLM 驾驶车辆的系统来验证其可行性。

Dec, 2023

基于大型语言模型的自动驾驶的混合推理

研究表明，大型语言模型（LLMs）在自动驾驶场景中能够适应和应用算术和常识推理的组合，通过分析检测到的物体和传感器数据、理解驾驶法规和物理规律，并提供额外的上下文信息，从而改善自动驾驶车辆的制动和油门控制，以做出更准确的决策。

Feb, 2024

接收、推理和反应：在自动驾驶车辆中根据您的指令驾驶的大型语言模型

通过利用大型语言模型（LLMs）的语言和推理能力，本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范，我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。

Oct, 2023

自主驾驶的大型语言模型：现实世界实验

利用大型语言模型（LLM）的 Talk-to-Drive 框架，通过处理人类的口头指令并结合上下文信息做出自主驾驶决策，实现个性化的安全、高效和舒适，成功率达到 100% 的执行命令，并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%，是在真实自主驾驶环境中应用 LLM 的首次实例。

Dec, 2023

自动驾驶问答的多帧、轻量级和高效视觉语言模型

EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。

Mar, 2024