DriveMLM: 使用行为规划状态来对齐多模态大型语言模型和自动驾驶

Dec, 2023

DriveMLM: 使用行为规划状态来对齐多模态大型语言模型和自动驾驶

DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving

Wenhai Wang, Jiangwei Xie, ChuanYang Hu, Haoming Zou, Jianan Fan...

TL;DR基于大型语言模型的自动驾驶框架 DriveMLM 并行闭环驾驶，在真实模拟器中进行，通过标准化决策状态与车辆控制命令之间的连接、使用多模态语言模型模拟行为规划模块以及设计有效的数据引擎进行数据集收集，该研究基于 CARLA Town05 Long 实验表明模型的驾驶得分达到 76.1，超过 Apollo 基准 4.7 分，验证了模型的有效性。

Abstract

large language models (LLMs) have opened up new possibilities for intelligent agents, endowing them with human-like thinking and cognitive abilities. In this work, we delve into the potential of large language models

large language models autonomous driving drivemlm behavior planning module data engine

发现论文，激发创造

LanguageMPC: 大规模语言模型作为自动驾驶决策者

利用大型语言模型作为决策组件，通过认知路径和行为翻译算法实现在复杂的自治驾驶场景中对人类常识的综合推理，将大型语言模型的决策与低级控制器无缝集成，通过参数矩阵适应实现行为指令的执行，在单一和多车辆任务中均优于基准方法，具备常识推理能力，进一步推进复杂自动驾驶场景中的安全性、高效性、泛化性和互操作性。

Oct, 2023

自动驾驶的大型语言模型调查

自动驾驶技术是改变交通运输和城市流动性的催化剂，从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用，并评估了当前技术进展、主要挑战和未来方向。

Nov, 2023

自动驾驶中基于大型语言模型的超对齐框架

我们的研究引入了一个新的安全框架，利用多智能体大语言模型（LLMs）来保护自动驾驶车辆的敏感信息，同时确保 LLM 的输出符合驾驶规定和符合人类价值观。我们使用该框架评估了 11 个大语言模型驱动的自动驾驶提示的安全性、隐私性和成本方面，并对这些驾驶提示进行了问答测试，成功地证明了该框架的有效性。

Jun, 2024

自动驾驶的多模态大型语言模型调查

基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似，并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究，概述了多模态大型语言模型的背景、发展以及自动驾驶的历史，并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准，同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作，提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题，并呼吁学术界和工业界共同促进该领域的发展。

Nov, 2023

像人类驾驶：用大语言模型重新思考自动驾驶

本文探讨使用大型语言模型（LLM）作为自动驾驶系统的潜力，认为传统优化和模块化的自动驾驶系统无法应对复杂情况，提出了理想的自动驾驶系统应具备的推理、解释和记忆三个关键能力，并通过实验证明 LLM 在自动驾驶中具有卓越的推理能力为人类化自动驾驶的发展提供了有价值的思路。

Jul, 2023

接收、推理和反应：在自动驾驶车辆中根据您的指令驾驶的大型语言模型

通过利用大型语言模型（LLMs）的语言和推理能力，本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范，我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。

Oct, 2023

自主驾驶的大型语言模型：现实世界实验

利用大型语言模型（LLM）的 Talk-to-Drive 框架，通过处理人类的口头指令并结合上下文信息做出自主驾驶决策，实现个性化的安全、高效和舒适，成功率达到 100% 的执行命令，并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%，是在真实自主驾驶环境中应用 LLM 的首次实例。

Dec, 2023

利用大型语言模型赋能自动驾驶：一个安全的角度

自动驾驶面临重要的挑战：公众信任问题和长尾未知驾驶场景的安全担忧。为解决这个问题，本文提倡在自动驾驶系统中整合大型语言模型，充分利用其强大的常识知识、推理能力和人机交互能力，将其作为智能决策者来提升整体自动驾驶性能和安全性。本文展示了两个案例研究的结果，证实了我们方法的有效性。此外，我们还讨论了将大型语言模型整合到其他自动驾驶软件组件 (包括感知、预测和仿真) 的潜在优势。尽管在案例研究中面临挑战，但大型语言模型的整合对于加强自动驾驶的安全性和性能具有潜在的希望和益处。

Nov, 2023

LMDrive: 大型语言模型的闭环端到端驾驶

本文介绍了 LMDrive，一种语言引导的、端到端的、闭环自动驾驶框架，它独特地处理和整合多模态传感器数据和自然语言指令，实现了与人类和导航软件在真实教学环境中的交互。为了促进基于语言的闭环自动驾驶的进一步研究，我们还公开发布了包含约 64K 个指令跟踪数据片段的数据集，以及测试系统处理复杂指令和具有挑战性驾驶场景的 LangAuto 基准。进行了广泛的闭环实验以证明 LMDrive 的有效性。据我们所知，我们是首个利用 LGM 进行闭环端到端自动驾驶的工作。相关代码可在此网址找到：https://

Dec, 2023

探究多模态 LLMs 作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力，并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024