SF-V：单向视频生成模型

Jun, 2024

SF-V: Single Forward Video Generation Model

Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag...

TL;DR通过对预训练的视频扩散模型进行对抗训练，我们提出了一种新颖的方法，通过单步合成高质量视频来获得单步视频生成模型，捕捉视频数据中的时间和空间依赖关系，从而大大减少计算成本，为实时视频合成和编辑铺平了道路。

Abstract

diffusion-based video generation models have demonstrated remarkable success in obtaining high-fidelity videos through the iterative denoising process. However, these models require multiple denoising steps during sampling, resulting in high computational costs. In this work, we propos

diffusion-based video generation models adversarial training single-step video generation models temporal and spatial dependencies real-time video synthesis

发现论文，激发创造

ZeroSmooth：无需训练的扩散器自适应高帧率视频生成

我们提出了一种对生成式视频扩散模型的训练无关的视频插值方法，通过将视频模型转换为自级联视频扩散模型并结合设计的隐藏状态校正模块，保持关键帧与插值帧之间的时间一致性。在多个受欢迎的视频模型上进行了广泛的评估，证明了该方法的有效性，特别是我们的训练无关方法甚至可以与由大量计算资源和大规模数据集支持的训练插值模型相媲美。

Jun, 2024

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

VIDM: 视频隐式扩散模型

该研究提出基于扩散模型的视频生成方法，通过隐式条件建模来模拟运动效果，并提出多种策略来优化生成视频的质量。实验证明，该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。

Dec, 2022

VideoFusion：分解扩散模型用于高质量视频生成

本文提出了一种名为 VideoFusion 的方法，通过分解噪声来处理视频数据，并采用两个联合学习的网络来匹配噪声分解，提高了视频生成的质量，并且还证明了分解噪声公式可以受益于预训练的图像扩散模型和文本条件下的视频生成。

Mar, 2023

流媒体传播：使用传播模型进行在线视频编辑

我们提出了一种名为在线视频编辑的新任务，旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion（SVDiff）来解决此问题，它将紧凑的空间感知时间回归与现成的稳定扩散相结合，并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置，我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明，我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度，对于长时间、高质量的视频编辑表现出色。

May, 2024

SV3D：单图像多视图融合和三维生成的新型潜在视频扩散

我们提出了 Stable Video 3D (SV3D) - 一种用于高分辨率的围绕 3D 对象进行图像到多视图生成的潜在视频扩散模型。

Mar, 2024

从视频扩散先验中学习时间一致的视频深度

该研究旨在通过利用现有视频生成模型中的先验知识，将视频深度估计问题转化为条件生成问题，以降低学习难度并增强泛化能力。通过实证验证，作者提出了一种先优化空间层再优化时间层的训练策略，并通过滑动窗口策略在任意长的视频上进行推断，从而获得更具时间一致性的深度估计结果。实验结果表明，作者提出的 ChronoDepth 方法在估计深度的时间一致性方面优于现有方法，并在深度条件视频生成和新视角合成等实际应用中展示了更一致的视频深度的益处。

Jun, 2024

视频生成的扩散概率建模

本文提出了一种自回归、端到端优化的视频扩散模型，受到神经视频压缩技术的启发，可用于生成高质量的视频，并提出了可扩展的连续排名概率得分（CRPS）方法，以评估视频的概率预测能力，该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。

Mar, 2022

扩散模型实现逼真噪声合成

该研究论文提出了一种基于扩散模型的合成逼真噪声的新方法，用于为困难获得真实数据的情景下的训练去噪模型提供大量高质量的数据，并在多个基准测试上证明了其方法的优越性.

May, 2023

并非所有步骤相等：高效生成与渐进传播模型

提出了一种名为 Step-Adaptive Training 的创新训练策略，通过在初始阶段训练一个基础去噪模型来涵盖所有时间步长，然后将时间步长分成不同的组，在每个组内进行微调以实现专门的去噪能力，这种方法不仅提高了模型性能，还显著降低了计算成本。

Dec, 2023