DriveGenVLM：基于视觉语言模型的真实世界视频生成用于自主驾驶

Aug, 2024

DriveGenVLM：基于视觉语言模型的真实世界视频生成用于自主驾驶

DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving

Yongjie Fu, Anmol Jain, Xuan Di, Xu Chen, Zhaobin Mo

TL;DR本研究针对自主驾驶领域中对复杂场景理解能力不足的问题，提出了DriveGenVLM框架，利用去噪扩散概率模型生成真实感驾驶视频，并结合视觉语言模型进行理解。重要发现表明，生成的视频及其叙述能够有效提升交通场景理解和导航能力，对自主驾驶技术有潜在的积极影响。

Abstract

The advancement of Autonomous Driving technologies necessitates increasingly sophisticated methods for understanding and predicting real-world scenarios. Vision Language Models (VLMs) are emerging as revolutionar

发现论文，激发创造

自动驾驶和智能交通系统中的视觉语言模型

该研究论文综述了视觉语言模型在自动驾驶和智能交通系统领域的应用，包括当前模型和数据集，并探讨了潜在的应用和新兴的研究方向，同时详细讨论了挑战和研究空白。该论文旨在向研究人员提供有关VLM在自动驾驶和智能交通系统中的最新工作和未来趋势。

Oct, 2023

GPT-4V(ision)自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM是一种利用Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了DriveVLM-Dual作为一种混合系统以解决VLMs在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对nuScenes数据集和SUP-AD数据集的广泛实验，证明了DriveVLM和DriveVLM-Dual在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

DriveDreamer-2: 增强型世界模型用于多样化驾驶视频生成

DriveDreamer-2是第一个使用大型语言模型生成定制驾驶视频的世界模型，它可以以用户友好的方式生成不常见的驾驶视频，并通过生成的视频提高驾驶感知方法的训练效果，视频生成质量超过其他最先进的方法，相对改进幅度达30%和50%。

Mar, 2024

探究多模态LLMs作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像/帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器DriveSim生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种MLLMs作为驾驶世界模型的能力，并为评估驾驶中的MLLMs贡献了全面的开源代码和一个新数据集“Eval-LLM-Drive”。我们的研究结果突出了当前领先的MLLMs在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024

视觉语言基础模型中的运动预测中的难例检测

该研究探讨了使用Vision-Language Foundation Models（VLMs）在自动驾驶中检测困难案例的潜力，并展示了VLMs在交通参与者运动预测中检测困难案例的能力。通过VLMs检测困难案例，进一步提高了现有运动预测流程的训练效率。

May, 2024

通过可控的长视频生成释放自主驾驶的泛化能力

使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准，然而现有方法在提高感知模型方面有效，但我们发现这些方法未能提高端到端自动驾驶模型的规划性能，原因在于生成的视频通常少于8帧且空间和时间不一致，为此我们提出了一种基于扩散的长视频生成方法Delphi，通过跨多视角的共享噪声建模机制提高空间一致性，并引入特征对齐模块实现精确可控性和时间一致性，相比现有方法，我们的方法最多可生成40帧的视频而保持一致性，这是现有方法的5倍之多，进一步我们通过构建一个失败案例驱动框架，借助预训练视觉语言模型，设计了一种采样策略让Delphi生成类似于那些失败案例的新数据，提高了样本效率，广泛的实验证明我们的Delphi在驾驶规划中生成更高质量的长视频，首次超越现有最先进的方法，而且仅使用了训练数据集的4％，我们的框架能够将自动驾驶模型的规划性能提升25％。

Jun, 2024

SimGen：基于模拟器的驾驶场景生成

通过混合模拟器和现实世界的数据，SimGen模型能够学习生成具有多样性的驾驶场景，通过新颖的级联扩散管道解决了模拟到真实世界之间的差距和多条件冲突，并在保持可控性的基础上，获得卓越的生成质量和多样性。

Jun, 2024

CoVLA：用于自动驾驶的综合视觉-语言-动作数据集

本研究解决了自动驾驶中缺乏大规模注释数据集的问题，提出了CoVLA数据集，该数据集包含超过80小时的真实驾驶视频，并通过自动化数据处理生成准确的驾驶轨迹及详细的自然语言描述。研究表明，利用此数据集的多模态大语言模型在处理视觉、语言和动作方面表现出强大的能力，对推动自动驾驶领域的发展具有重要潜力。

Aug, 2024

GenDDS：利用提示生成视频的生成模型生成多样化的驾驶视频场景

本研究针对自主驾驶训练中缺乏多样化数据集的问题，提出了GenDDS方法，利用先进的潜在扩散模型Stable Diffusion XL生成真实且多样的驾驶场景。通过与KITTI数据集结合，我们的模型成功生成与真实世界驾驶场景相似的高质量视频，为自主驾驶系统的训练数据发展提供了新的解决方案。

Aug, 2024