Aug, 2024

DriveGenVLM:基于视觉语言模型的真实世界视频生成用于自主驾驶

TL;DR本研究针对自主驾驶领域中对复杂场景理解能力不足的问题,提出了DriveGenVLM框架,利用去噪扩散概率模型生成真实感驾驶视频,并结合视觉语言模型进行理解。重要发现表明,生成的视频及其叙述能够有效提升交通场景理解和导航能力,对自主驾驶技术有潜在的积极影响。