OccLLaMA：一种用于自动驾驶的占用语言行动生成世界模型

Sep, 2024

OccLLaMA：一种用于自动驾驶的占用语言行动生成世界模型

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

Julong Wei, Shanshuai Yuan, Pengfei Li, Qingda Hu, Zhongxue Gan...

TL;DR本研究解决了多模态大语言模型在自动驾驶中对世界动态和行动关系的忽视问题，提出了OccLLaMA模型，该模型通过语义占用作为视觉表示，统一视觉、语言和行动模态。重要发现表明，OccLLaMA在多个自动驾驶任务中表现出竞争力，展示了其作为基础模型的潜在应用价值。

Abstract

The rise of multi-modal large language models(MLLMs) has spurred their applications in Autonomous Driving. Recent MLLM-based methods perform action by learning a direct mapping from perception to action, neglecting the dynamics of the world and the relations between action and world dy

发现论文，激发创造

自主驾驶的三维占据世界模型学习

理解3D场景的演变对于自动驾驶决策至关重要。本文通过在3D占据空间中学习OccWorld世界模型，同时预测自车运动和周围场景的演变，提出了一种新的框架。实验证明了OccWorld在无需使用实例和地图监督的情况下具有有效建模驾驶场景演变的能力。

Nov, 2023

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM是一种利用Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了DriveVLM-Dual作为一种混合系统以解决VLMs在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对nuScenes数据集和SUP-AD数据集的广泛实验，证明了DriveVLM和DriveVLM-Dual在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

3D-VLA：一个基于三维视觉-语言-动作的生成式世界模型

提出了一种基于3D感知、推理和行动的生成世界模型的3D-VLA模型，通过引入一系列交互令牌与具体环境进行交互，训练一系列融入大规模3D语言模型的生成扩散模型以预测目标图像和点云，并在大规模数据集上的实验中展示了3D-VLA在推理、多模态生成和规划能力上的显著改进，展示了其在真实世界应用中的潜力。

Mar, 2024

OccGen：用于自动驾驶的生成式多模态三维占据预测

OccGen是一种简单但强大的生成感知模型，通过预测和消除随机高斯分布产生的噪音，逐步推断并优化占用图像。

Apr, 2024

探究多模态LLMs作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像/帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器DriveSim生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种MLLMs作为驾驶世界模型的能力，并为评估驾驶中的MLLMs贡献了全面的开源代码和一个新数据集“Eval-LLM-Drive”。我们的研究结果突出了当前领先的MLLMs在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024

OccSora: 自主驾驶中的4D占用生成模型作为世界模拟器

理解3D场景的演变对于有效的自动驾驶至关重要。我们提出了一种基于扩散的4D占据生成模型OccSora，以模拟自动驾驶中三维世界的发展。通过在空时表示中学习扩散变换器，我们可以在轨迹提示的条件下生成4D占据，展示了对驾驶场景的空间和时间分布的理解能力。具有轨迹感知的4D生成，OccSora具有作为自动驾驶决策的世界模拟器的潜力。

May, 2024

UnO: 无监督占用场景的感知和预测

我们提出了一种使用自监督从LiDAR数据学习连续的4D（时空）占据场的无监督世界模型，该模型可以轻松有效地迁移到下游任务，并在点云预测和BEV语义占据预测方面取得了最先进的性能，特别是在标注数据稀缺时。此外，在与先前的时空几何占据预测的最新技术进行比较时，我们的4D世界模型对于与自动驾驶相关的类别的对象的召回率要高得多。

Jun, 2024

VEON：词汇增补的占用预测

VEON是一种通过将预测的三维占用网格与开放世界语义相结合来提供三维占用的方法，它将2D基础模型MiDaS和CLIP结合起来，在解决深度模糊问题、提高像素级精度和优化长尾问题的同时，实现了在Occ3D-nuScenes上达到15.14的mIoU，并能识别具有开放词汇类别的对象。

Jul, 2024

CoVLA：用于自动驾驶的综合视觉-语言-动作数据集

本研究解决了自动驾驶中缺乏大规模注释数据集的问题，提出了CoVLA数据集，该数据集包含超过80小时的真实驾驶视频，并通过自动化数据处理生成准确的驾驶轨迹及详细的自然语言描述。研究表明，利用此数据集的多模态大语言模型在处理视觉、语言和动作方面表现出强大的能力，对推动自动驾驶领域的发展具有重要潜力。

Aug, 2024

在占用世界中驾驶：基于视觉的4D占用预测与自主驾驶的世界模型规划

本研究解决了现有世界模型在数据生成和预训练方面的局限，提出了Drive-OccWorld模型，实现视觉中心的4D占用预测与自主驾驶的端到端规划。通过引入语义和运动条件的标准化，使模型能够考虑几何和时空建模，有效生成占用预测，为自主驾驶的未来状态预测和最优轨迹选择提供了新的可能性。

Aug, 2024