本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
提出了一种名为投影潜空间扩散模型(PVDM)的新型生成模型,该模型在低维潜空间中学习视频分布,通过自编码器将视频投影为二维形状的潜变量,使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序,能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比,PVDM 在 FVD 评估指标上获得了最高的得分。
Feb, 2023
本研究提出了一种基于去噪扩散概率模型的视频建模框架,可在各种真实环境下生成长时间视频,并介绍了一种适用于此目的的架构,可有效比较和优化采样顺序,并对以前采样的帧使用选择性稀疏和长程调节。实验结果表明,在多个数据集上相较于现有工作获得了更好的视频建模,并生成了长达 25 分钟的时间连贯视频。研究还发布了一个基于 CARLA 自动驾驶模拟器生成视频构建数据集和具有语义意义的度量。
May, 2022
MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段,并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段,可以在 64 倍于最近的视频扩散模型(VDM)的速度下生成。
Nov, 2022
该研究提出基于扩散模型的视频生成方法,通过隐式条件建模来模拟运动效果,并提出多种策略来优化生成视频的质量。实验证明,该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。
Dec, 2022
通过扩散建模,我们提出了一种基于转换器的 W.A.L.T 方法,用于逼真视频生成。我们采用了两个关键设计决策:一是使用因果编码器在统一的潜在空间中联合压缩图像和视频,实现跨模态的训练和生成;二是为了记忆和训练效率,我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能,而不使用分类器引导。最后,我们还训练了三个模型的串联,用于文本到视频生成任务,包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧生成 512 x 896 分辨率的视频。
Dec, 2023
我们提出了稳定的视频扩散 - 一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。
Nov, 2023
该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合,我们提出了一种新的方法来自动化计算机生成的视频的创作过程,并输出高质量和时间上一致的帧。
通过在 Kinetics 数据集上训练基于三维自注意机制的自回归视频生成模型,我们展示了这种概念简单的方法在产生高保真、逼真度更高的视频方面具有竞争力。
Jun, 2019