DriveMLM: 使用行为规划状态来对齐多模态大型语言模型和自动驾驶
利用大型语言模型作为决策组件,通过认知路径和行为翻译算法实现在复杂的自治驾驶场景中对人类常识的综合推理,将大型语言模型的决策与低级控制器无缝集成,通过参数矩阵适应实现行为指令的执行,在单一和多车辆任务中均优于基准方法,具备常识推理能力,进一步推进复杂自动驾驶场景中的安全性、高效性、泛化性和互操作性。
Oct, 2023
自动驾驶技术是改变交通运输和城市流动性的催化剂,从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用,并评估了当前技术进展、主要挑战和未来方向。
Nov, 2023
我们的研究引入了一个新的安全框架,利用多智能体大语言模型(LLMs)来保护自动驾驶车辆的敏感信息,同时确保 LLM 的输出符合驾驶规定和符合人类价值观。我们使用该框架评估了 11 个大语言模型驱动的自动驾驶提示的安全性、隐私性和成本方面,并对这些驾驶提示进行了问答测试,成功地证明了该框架的有效性。
Jun, 2024
基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似,并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究,概述了多模态大型语言模型的背景、发展以及自动驾驶的历史,并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准,同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作,提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题,并呼吁学术界和工业界共同促进该领域的发展。
Nov, 2023
本文探讨使用大型语言模型(LLM)作为自动驾驶系统的潜力,认为传统优化和模块化的自动驾驶系统无法应对复杂情况,提出了理想的自动驾驶系统应具备的推理、解释和记忆三个关键能力,并通过实验证明 LLM 在自动驾驶中具有卓越的推理能力为人类化自动驾驶的发展提供了有价值的思路。
Jul, 2023
通过利用大型语言模型(LLMs)的语言和推理能力,本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范,我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。
Oct, 2023
利用大型语言模型(LLM)的 Talk-to-Drive 框架,通过处理人类的口头指令并结合上下文信息做出自主驾驶决策,实现个性化的安全、高效和舒适,成功率达到 100% 的执行命令,并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%,是在真实自主驾驶环境中应用 LLM 的首次实例。
Dec, 2023
自动驾驶面临重要的挑战:公众信任问题和长尾未知驾驶场景的安全担 忧。为解决这个问题,本文提倡在自动驾驶系统中整合大型语言模型,充分利用其强大的常识知识、推理能力和人机交互能力,将其作为智能决策者来提升整体自动驾驶性能和安全性。本文展示了两个案例研究的结果,证实了我们方法的有效性。此外,我们还讨论了将大型语言模型整合到其他自动驾驶软件组件 (包括感知、预测和仿真) 的潜在优势。尽管在案例研究中面临挑战,但大型语言模型的整合对于加强自动驾驶的安全性和性能具有潜在的希望和益处。
Nov, 2023
本文介绍了 LMDrive,一种语言引导的、端到端的、闭环自动驾驶框架,它独特地处理和整合多模态传感器数据和自然语言指令,实现了与人类和导航软件在真实教学环境中的交互。为了促进基于语言的闭环自动驾驶的进一步研究,我们还公开发布了包含约 64K 个指令跟踪数据片段的数据集,以及测试系统处理复杂指令和具有挑战性驾驶场景的 LangAuto 基准。进行了广泛的闭环实验以证明 LMDrive 的有效性。据我们所知,我们是首个利用 LGM 进行闭环端到端自动驾驶的工作。相关代码可在此网址找到:https://
Dec, 2023
我们评估了多模态大型语言模型(MLLMs)在自动驾驶领域的应用,并挑战和验证了一些常见假设,重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足,对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景,进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力,并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距,强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。
May, 2024