像素与潜在扩散模型在文字到视频生成中的融合
MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段,并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段,可以在 64 倍于最近的视频扩散模型(VDM)的速度下生成。
Nov, 2022
该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
FLDM 是第一个将现成的图像编辑方法融入视频 LDM 的视频编辑方法,通过在视频 LDM 中应用现成的图像编辑方法,FLDM 能够改善编辑视频的文字对齐和时间一致性。
Oct, 2023
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
提出了一种名为投影潜空间扩散模型(PVDM)的新型生成模型,该模型在低维潜空间中学习视频分布,通过自编码器将视频投影为二维形状的潜变量,使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序,能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比,PVDM 在 FVD 评估指标上获得了最高的得分。
Feb, 2023
提出了一种基于扩散模型的新方法,从文本生成以动态三维物体为中心的高质量多视图视频,通过将问题分解为视点空间和时间组件,并引入对齐模块来保证生成的多视图视频的一致性和连贯性,同时解决了二维和多视图数据之间的领域差异。
Jun, 2024
使用参考引导的潜在扩散方法,VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023