DriveDreamer-2: 增强型世界模型用于多样化驾驶视频生成

Mar, 2024

DriveDreamer-2: 增强型世界模型用于多样化驾驶视频生成

DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Xinze Chen, Guan Huang...

TL;DRDriveDreamer-2 是第一个使用大型语言模型生成定制驾驶视频的世界模型，它可以以用户友好的方式生成不常见的驾驶视频，并通过生成的视频提高驾驶感知方法的训练效果，视频生成质量超过其他最先进的方法，相对改进幅度达 30% 和 50%。

Abstract

world models have demonstrated superiority in autonomous driving, particularly in the generation of multi-view driving videos. However, significant challenges still exist in generating →

world models autonomous driving customized driving videos large language model unified multi-view model

发现论文，激发创造

DriveDreamer：面向实际驱动的自动驾驶世界模型

DriveDreamer 是第一个从真实世界驾驶场景中建立的世界模型，通过使用扩散模型和两阶段训练流程，能够准确地生成高质量驾驶视频，并捕捉到真实世界交通场景的结构约束。

Sep, 2023

探究多模态 LLMs 作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力，并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024

WorldDreamer：面向通用视频生成的世界模型预测屏蔽标记

WorldDreamer 是一个创新的全球模型，通过将视觉输入映射为离散标记并预测掩码标记，将世界建模作为无监督的视觉序列建模挑战，实现对一般世界物理和运动的全面理解，并在视频生成方面具有卓越的性能。

Jan, 2024

驶向未来：基于世界模型的自动驾驶多视角视觉预测和规划

自主驾驶中，通过预测未来事件并评估可预见的风险，使自动驾驶汽车能够更好地规划动作，提高道路安全和效率。我们提出了 Drive-WM，这是第一个与现有端到端规划模型兼容的驾驶世界模型。通过视图因式分解实现的联合时空建模，我们的模型在驾驶场景中生成具有高保真度的多视图视频。基于其强大的生成能力，我们首次展示了将世界模型应用于安全驾驶规划的潜力。特别是，我们的 Drive-WM 能够根据不同的驾驶操纵方式驾驶到多个未来，并根据基于图像的奖励确定最佳轨迹。对真实驾驶数据集的评估验证了我们的方法能够生成高质量、一致性和可控性的多视图视频，为真实世界模拟和安全规划开辟了新的可能性。

Nov, 2023

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

CarDreamer：基于世界模型的自主驾驶开源学习平台

为了在错综复杂的实际情景中安全驾驶，自主车辆需要能够适应各种道路条件并预测未来事件。为了弥补这个空白，我们介绍了 CarDreamer，这是第一个专门用于开发基于世界模型的自主驾驶算法的开源学习平台。它包括三个关键组成部分：1）世界模型骨干：CarDreamer 集成了一些最先进的世界模型，简化了 RL 算法的复现过程。2）内置任务：CarDreamer 提供一套全面可配置的驾驶任务，与 Gym 接口兼容，并配备了经验证的优化奖励函数。3）任务开发套件：该套件简化了驾驶任务的创建过程，可以轻松定义交通流量和车辆路线，并自动收集多模态观测数据。可视化服务器允许用户通过浏览器实时追踪代理驾驶视频和性能指标。我们还使用内置任务进行广泛的实验证明了 WM 在自主驾驶中的性能和潜力，并通过 CarDreamer 的丰富性和灵活性系统地研究了观测模态、可观测性和车辆意图共享对 AV 安全性和效率的影响。所有代码和文档都可以在该 URL 中访问。

May, 2024

自主驾驶的大型语言模型：现实世界实验

利用大型语言模型（LLM）的 Talk-to-Drive 框架，通过处理人类的口头指令并结合上下文信息做出自主驾驶决策，实现个性化的安全、高效和舒适，成功率达到 100% 的执行命令，并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%，是在真实自主驾驶环境中应用 LLM 的首次实例。

Dec, 2023

DriveMLM: 使用行为规划状态来对齐多模态大型语言模型和自动驾驶

基于大型语言模型的自动驾驶框架 DriveMLM 并行闭环驾驶，在真实模拟器中进行，通过标准化决策状态与车辆控制命令之间的连接、使用多模态语言模型模拟行为规划模块以及设计有效的数据引擎进行数据集收集，该研究基于 CARLA Town05 Long 实验表明模型的驾驶得分达到 76.1，超过 Apollo 基准 4.7 分，验证了模型的有效性。

Dec, 2023

ADriver-I: 无人驾驶的通用世界模型

基于多模态大语言模型和扩散技术，我们提出了一种自主驾驶世界模型 ADriver-I，该模型以交织的视觉 - 动作对为基础，能够预测当前帧的控制信号，并使用历史的视觉 - 动作对和生成的控制信号来预测未来的帧，通过无限反馈循环，ADriver-I 实现了自主驾驶。我们通过在 nuScenes 和大规模私有数据集上进行广泛实验，证明了 ADriver-I 在性能上的卓越表现，希望该模型能为未来自主驾驶和具身智能提供新的洞见。

Nov, 2023

LMDrive: 大型语言模型的闭环端到端驾驶

本文介绍了 LMDrive，一种语言引导的、端到端的、闭环自动驾驶框架，它独特地处理和整合多模态传感器数据和自然语言指令，实现了与人类和导航软件在真实教学环境中的交互。为了促进基于语言的闭环自动驾驶的进一步研究，我们还公开发布了包含约 64K 个指令跟踪数据片段的数据集，以及测试系统处理复杂指令和具有挑战性驾驶场景的 LangAuto 基准。进行了广泛的闭环实验以证明 LMDrive 的有效性。据我们所知，我们是首个利用 LGM 进行闭环端到端自动驾驶的工作。相关代码可在此网址找到：https://

Dec, 2023