GenDDS:利用提示生成视频的生成模型生成多样化的驾驶视频场景
BDD100K是有史以来最大的驾驶视频数据集,共有10个任务,用于评估自主驾驶图像识别算法的进展,并为杂多任务学习构建基准,研究如何共同解决任务。
May, 2018
大规模多样化的真实交通场景对于自动驾驶系统的开发和验证至关重要。本研究引入了DriveSceneGen,一种数据驱动的驾驶场景生成方法,从真实世界的驾驶数据集中学习并生成完整的动态驾驶场景。与真实世界的数据集相比,DriveSceneGen能够以高保真度和多样性生成与实际数据分布相吻合的新型驾驶场景。与真实世界数据集相比,5,000个生成场景的实验结果突出了生成质量、多样性和可扩展性。据我们所知,DriveSceneGen是首个能够从头开始生成涉及静态地图元素和动态交通参与者的新型驾驶场景的技术。
Sep, 2023
提出了一个新的端到端自动驾驶范式,自动驾驶的关键在于预测自车和周围环境随着时间的演变,通过生成建模问题通过GenAD框架,模型了自动驾驶问题,并在广泛使用的nuScenes基准测试中取得了高效的最新成果。
Feb, 2024
DriveDreamer-2是第一个使用大型语言模型生成定制驾驶视频的世界模型,它可以以用户友好的方式生成不常见的驾驶视频,并通过生成的视频提高驾驶感知方法的训练效果,视频生成质量超过其他最先进的方法,相对改进幅度达30%和50%。
Mar, 2024
本文介绍了自动驾驶学科中第一个大规模视频预测模型。通过从网络获取大量数据并与多样且高质量的文本描述配对,我们消除了高成本数据收集的限制并增强了模型的泛化能力。该数据集积累了超过2000小时的行驶视频,涵盖了全球各地不同的气候条件和交通场景。我们的模型名为GenAD,并继承了最近潜变扩散模型的优点,利用新颖的时间推理块处理行驶场景中具有挑战性的动态。我们展示了它可以以零-shot方式泛化到各种未见过的行驶数据集,超过了一般或专门针对行车的视频预测模型。此外,GenAD可以适应动作条件化预测模型或运动规划器,具有在实际行驶应用中巨大潜力。
Mar, 2024
使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准,然而现有方法在提高感知模型方面有效,但我们发现这些方法未能提高端到端自动驾驶模型的规划性能,原因在于生成的视频通常少于8帧且空间和时间不一致,为此我们提出了一种基于扩散的长视频生成方法Delphi,通过跨多视角的共享噪声建模机制提高空间一致性,并引入特征对齐模块实现精确可控性和时间一致性,相比现有方法,我们的方法最多可生成40帧的视频而保持一致性,这是现有方法的5倍之多,进一步我们通过构建一个失败案例驱动框架,借助预训练视觉语言模型,设计了一种采样策略让Delphi生成类似于那些失败案例的新数据,提高了样本效率,广泛的实验证明我们的Delphi在驾驶规划中生成更高质量的长视频,首次超越现有最先进的方法,而且仅使用了训练数据集的4%,我们的框架能够将自动驾驶模型的规划性能提升25%。
Jun, 2024
通过混合模拟器和现实世界的数据,SimGen模型能够学习生成具有多样性的驾驶场景,通过新颖的级联扩散管道解决了模拟到真实世界之间的差距和多条件冲突,并在保持可控性的基础上,获得卓越的生成质量和多样性。
Jun, 2024
基于生成模型的高效模拟器可用于改进自动驾驶系统的可扩展性、安全性和降低工程成本,这种创新设计可用于生成各种驾驶场景,提高推理和训练速度,适用于在线强化学习、规划策略评估和测试的高保真度仿真器。
Jul, 2024
本研究针对自主驾驶领域中对复杂场景理解能力不足的问题,提出了DriveGenVLM框架,利用去噪扩散概率模型生成真实感驾驶视频,并结合视觉语言模型进行理解。重要发现表明,生成的视频及其叙述能够有效提升交通场景理解和导航能力,对自主驾驶技术有潜在的积极影响。
Aug, 2024