通过可控的长视频生成释放自主驾驶的泛化能力

Jun, 2024

通过可控的长视频生成释放自主驾驶的泛化能力

Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation

Enhui Ma, Lijun Zhou, Tao Tang, Zhan Zhang, Dong Han...

TL;DR使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准，然而现有方法在提高感知模型方面有效，但我们发现这些方法未能提高端到端自动驾驶模型的规划性能，原因在于生成的视频通常少于 8 帧且空间和时间不一致，为此我们提出了一种基于扩散的长视频生成方法 Delphi，通过跨多视角的共享噪声建模机制提高空间一致性，并引入特征对齐模块实现精确可控性和时间一致性，相比现有方法，我们的方法最多可生成 40 帧的视频而保持一致性，这是现有方法的 5 倍之多，进一步我们通过构建一个失败案例驱动框架，借助预训练视觉语言模型，设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据，提高了样本效率，广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频，首次超越现有最先进的方法，而且仅使用了训练数据集的 4％，我们的框架能够将自动驾驶模型的规划性能提升 25％。

Abstract

Using generative models to synthesize new data has become a de-facto standard in autonomous driving to address the data scarcity issue. Though existing approaches are able to boost perception models, we discover

generative models autonomous driving video generation spatial consistency planning performance

发现论文，激发创造

自主驾驶的广义预测模型

本文介绍了自动驾驶学科中第一个大规模视频预测模型。通过从网络获取大量数据并与多样且高质量的文本描述配对，我们消除了高成本数据收集的限制并增强了模型的泛化能力。该数据集积累了超过 2000 小时的行驶视频，涵盖了全球各地不同的气候条件和交通场景。我们的模型名为 GenAD，并继承了最近潜变扩散模型的优点，利用新颖的时间推理块处理行驶场景中具有挑战性的动态。我们展示了它可以以零 - shot 方式泛化到各种未见过的行驶数据集，超过了一般或专门针对行车的视频预测模型。此外，GenAD 可以适应动作条件化预测模型或运动规划器，具有在实际行驶应用中巨大潜力。

Mar, 2024

长视频的灵活扩散建模

本研究提出了一种基于去噪扩散概率模型的视频建模框架，可在各种真实环境下生成长时间视频，并介绍了一种适用于此目的的架构，可有效比较和优化采样顺序，并对以前采样的帧使用选择性稀疏和长程调节。实验结果表明，在多个数据集上相较于现有工作获得了更好的视频建模，并生成了长达 25 分钟的时间连贯视频。研究还发布了一个基于 CARLA 自动驾驶模拟器生成视频构建数据集和具有语义意义的度量。

May, 2022

生成动态场景的长视频

本研究提出了一种视频生成模型，通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性，所得的模型经过新的基准数据集的测试，取得了良好的效果。

Jun, 2022

基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

通过 DrivingDiffusion 框架，在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频，无需额外成本。

Oct, 2023

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

GenAD: 生成式端到端自动驾驶

提出了一个新的端到端自动驾驶范式，自动驾驶的关键在于预测自车和周围环境随着时间的演变，通过生成建模问题通过 GenAD 框架，模型了自动驾驶问题，并在广泛使用的 nuScenes 基准测试中取得了高效的最新成果。

Feb, 2024

超越单一视频片段的视频生成

提出使用指导信息和两阶段方法来生成多样化的长视频，该方法在客观指标上比现有技术提高多达 9.5％，得到超过 80％的用户偏好。

Apr, 2023

基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法，并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证，同时还展示了结合文本和音频等条件扩展的方法。

Apr, 2022

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022