视频生成的扩散概率建模

Mar, 2022

Diffusion Probabilistic Modeling for Video Generation

Ruihan Yang, Prakhar Srivastava, Stephan Mandt

TL;DR本文提出了一种自回归、端到端优化的视频扩散模型，受到神经视频压缩技术的启发，可用于生成高质量的视频，并提出了可扩展的连续排名概率得分（CRPS）方法，以评估视频的概率预测能力，该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。

Abstract

denoising diffusion probabilistic models are a promising new class of generative models that mark a milestone in high-quality image generation. This paper showcases their ability to sequentially generate video, surpassing prior methods in perceptual and →

denoising diffusion probabilistic models video generation neural video compression perceptual quality probabilistic forecasting

发现论文，激发创造

长视频的灵活扩散建模

本研究提出了一种基于去噪扩散概率模型的视频建模框架，可在各种真实环境下生成长时间视频，并介绍了一种适用于此目的的架构，可有效比较和优化采样顺序，并对以前采样的帧使用选择性稀疏和长程调节。实验结果表明，在多个数据集上相较于现有工作获得了更好的视频建模，并生成了长达 25 分钟的时间连贯视频。研究还发布了一个基于 CARLA 自动驾驶模拟器生成视频构建数据集和具有语义意义的度量。

May, 2022

概率能源预测的去噪扩散概率模型

本文提出了基于去噪扩散概率模型的深度学习生成方法，首次应用于利用全球能源预测竞赛 2014 的开放数据进行能源预测。结果表明，这种方法与其他最先进的深度学习生成模型竞争力相当。

Dec, 2022

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

VideoFusion：分解扩散模型用于高质量视频生成

本文提出了一种名为 VideoFusion 的方法，通过分解噪声来处理视频数据，并采用两个联合学习的网络来匹配噪声分解，提高了视频生成的质量，并且还证明了分解噪声公式可以受益于预训练的图像扩散模型和文本条件下的视频生成。

Mar, 2023

视觉中的扩散模型：一项调研

本综述为关于应用于计算机视觉的去噪扩散模型文章提供了全面的回顾，包括在领域中的理论和实际贡献，提供了三种通用扩散建模框架，并介绍了扩散模型与其他深度生成模型之间的关系，并引入了在计算机视觉中应用扩散模型的多个视角分类，最后，我们说明了离散模型的当前限制并预见了未来研究的一些有趣方向。

Sep, 2022

投影潜空间中的视频概率扩散模型

提出了一种名为投影潜空间扩散模型（PVDM）的新型生成模型，该模型在低维潜空间中学习视频分布，通过自编码器将视频投影为二维形状的潜变量，使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序，能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比，PVDM 在 FVD 评估指标上获得了最高的得分。

Feb, 2023

去噪扩散概率模型

本文使用受非平衡热力学考虑的潜变量模型 —— 扩散概率模型，提出了高质量的图像合成结果。通过根据扩散概率模型和 Langevin 动力学的去噪得分匹配之间的新颖联系设计加权变分界限进行训练，获得了最佳结果；此外，我们的模型自然地采用渐进式有损解压缩方案，可以解释为自回归解码的一般化。在无条件的 CIFAR10 数据集上，我们获得了 9.46 的 Inception 得分和 3.17 的最先进的 FID 得分。在 256x256 LSUN 上，我们获得了与 ProgressiveGAN 相似的样本质量。

Jun, 2020

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

预训练扩散模型的极致视频压缩

使用扩散模型的预测能力，在解码器中将多个神经压缩帧转换为连续的视频帧，以实现极端视频压缩，同时考虑感知质量指标，从低比特率下的位每像素（bpp）为 0.02 开始实现视觉上令人满意的重构，结果表明该方案比 H.264 和 H.265 等标准编解码器在低比特率领域具有更好的效果。

Feb, 2024

基于扩散模型的标签效率语义分割

本文研究了扰动扩散概率模型在语义分割任务中的应用，特别是在标注数据有限的情况下。通过探究预训练扩散模型的中间层，我们发现它们可以有效地捕捉输入图像的语义信息，并成为像素级别的分割表示。基于这些观察，我们提出了一种简单的分割方法，能在仅有少量训练图像的情况下显著提高性能。

Dec, 2021