该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
FLDM 是第一个将现成的图像编辑方法融入视频 LDM 的视频编辑方法,通过在视频 LDM 中应用现成的图像编辑方法,FLDM 能够改善编辑视频的文字对齐和时间一致性。
Oct, 2023
提出了一种基于 Motion Generation 的视频生成方法,通过 Latent Motion Generation 和 Video Reconstruction 实现视频生成的可控性,采用了 LaMD 框架,包括 Motion-decomposed Video Autoencoder 和 Diffusion-based Motion Generator 两部分,实现了高质量、宽泛的运动生成,并在多个基准数据集上创造了新的最先进的性能。
在视频生成方面,本研究提出了一种基于文本的扩散模型,通过使用大型语言模型(LLM)生成的动态场景布局来引导视频生成过程,旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。
Sep, 2023
我们提出了稳定的视频扩散 - 一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。
Nov, 2023
MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段,并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段,可以在 64 倍于最近的视频扩散模型(VDM)的速度下生成。
Nov, 2022
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
该研究提出基于扩散模型的视频生成方法,通过隐式条件建模来模拟运动效果,并提出多种策略来优化生成视频的质量。实验证明,该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。
Dec, 2022
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
使用参考引导的潜在扩散方法,VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。