Jun, 2024

通过可控的长视频生成释放自主驾驶的泛化能力

TL;DR使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准,然而现有方法在提高感知模型方面有效,但我们发现这些方法未能提高端到端自动驾驶模型的规划性能,原因在于生成的视频通常少于 8 帧且空间和时间不一致,为此我们提出了一种基于扩散的长视频生成方法 Delphi,通过跨多视角的共享噪声建模机制提高空间一致性,并引入特征对齐模块实现精确可控性和时间一致性,相比现有方法,我们的方法最多可生成 40 帧的视频而保持一致性,这是现有方法的 5 倍之多,进一步我们通过构建一个失败案例驱动框架,借助预训练视觉语言模型,设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据,提高了样本效率,广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频,首次超越现有最先进的方法,而且仅使用了训练数据集的 4%,我们的框架能够将自动驾驶模型的规划性能提升 25%。