长视频的灵活扩散建模

May, 2022

Flexible Diffusion Modeling of Long Videos

William Harvey, Saeid Naderiparizi, Vaden Masrani, Christian Weilbach, Frank Wood

TL;DR本研究提出了一种基于去噪扩散概率模型的视频建模框架，可在各种真实环境下生成长时间视频，并介绍了一种适用于此目的的架构，可有效比较和优化采样顺序，并对以前采样的帧使用选择性稀疏和长程调节。实验结果表明，在多个数据集上相较于现有工作获得了更好的视频建模，并生成了长达 25 分钟的时间连贯视频。研究还发布了一个基于 CARLA 自动驾驶模拟器生成视频构建数据集和具有语义意义的度量。

Abstract

We present a framework for video modeling based on denoising diffusion probabilistic models that produces long-duration video completions in a variety of realistic environments. We introduce a →

video modeling denoising diffusion probabilistic models generative model long-duration video completions selective sparse and long-range conditioning

发现论文，激发创造

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

视频生成的扩散概率建模

本文提出了一种自回归、端到端优化的视频扩散模型，受到神经视频压缩技术的启发，可用于生成高质量的视频，并提出了可扩展的连续排名概率得分（CRPS）方法，以评估视频的概率预测能力，该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。

Mar, 2022

可控的带扩散模型的长图像动画

在计算机视觉中，从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法，能够实现对可移动区域的运动方向和速度的精确控制，同时在保持内容、场景和动作协调一致性的同时生成长度超过 100 帧的长时间视频。

May, 2024

FreeNoise：无需调整的长视频扩散通过噪音重新调度

利用大规模视频数据集和扩散模型的进展，本研究通过引入多个文本条件，拓展了文本驱动视频生成模型的生成能力，解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。

Oct, 2023

FlexiFilm: 长视频生成与灵活条件

本研究介绍了一种针对生成长视频的新扩散模型 FlexiFilm，通过引入时间条件器和重新采样策略，实现了更一致的生成效果和解决过度曝光问题。实证结果表明 FlexiFilm 在定性和定量分析中优于竞争对手，能够生成超过 30 秒的长且一致的视频。

Apr, 2024

从单一视频流在线连续学习视频扩散模型

本研究介绍了通过在连续视频流中训练扩散模型的可行性，并通过引入两个新的持续视频生成建模基准数据集 —— 终身弹跳球和 Windows 95 迷宫屏幕保护程序，证明了扩散模型可以通过经验重放在线有效地训练，其性能与使用相同梯度步数训练的独立同分布样本的模型相当。

Jun, 2024

投影潜空间中的视频概率扩散模型

提出了一种名为投影潜空间扩散模型（PVDM）的新型生成模型，该模型在低维潜空间中学习视频分布，通过自编码器将视频投影为二维形状的潜变量，使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序，能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比，PVDM 在 FVD 评估指标上获得了最高的得分。

Feb, 2023

通过可控的长视频生成释放自主驾驶的泛化能力

使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准，然而现有方法在提高感知模型方面有效，但我们发现这些方法未能提高端到端自动驾驶模型的规划性能，原因在于生成的视频通常少于 8 帧且空间和时间不一致，为此我们提出了一种基于扩散的长视频生成方法 Delphi，通过跨多视角的共享噪声建模机制提高空间一致性，并引入特征对齐模块实现精确可控性和时间一致性，相比现有方法，我们的方法最多可生成 40 帧的视频而保持一致性，这是现有方法的 5 倍之多，进一步我们通过构建一个失败案例驱动框架，借助预训练视觉语言模型，设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据，提高了样本效率，广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频，首次超越现有最先进的方法，而且仅使用了训练数据集的 4％，我们的框架能够将自动驾驶模型的规划性能提升 25％。

Jun, 2024

基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

通过 DrivingDiffusion 框架，在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频，无需额外成本。

Oct, 2023