高保真图像到视频生成的无需调参噪声矫正
扩散模型在图像生成和编辑领域取得了显著的成功。我们提出了一种创新的框架,其中包含一个修正模块,用残差特征调节扩散模型权重,以填补编辑过程中准确性的差距。此外,我们引入了一种新的学习范式,旨在在编辑过程中最小化错误传播。通过大量实验证明,我们的提议框架和训练策略在各种去噪步骤下实现了高保真的重建和编辑结果,并在定量指标和质量评估方面表现出色。此外,我们还通过图像到图像的转换和跨领域图像编辑等多个应用探索了模型的泛化能力。
Dec, 2023
我们提出了一种高保真度的图像到视频生成方法,通过在预先训练的视频扩散模型上设计一个帧保留分支,名为 DreamVideo,来解决现有方法的局限性,该方法通过卷积层感知参考图像,并将特征与噪声潜在变量连接起来作为模型输入。同时,通过结合无分类器指导的双条件,可以通过提供不同的提示文本将单个图像导向不同动作的视频,使得视频的生成具备精确控制能力。综合实验表明,我们的方法在公开数据集上表现出色,无论是定量还是定性结果都优于现有方法,并且在 UCF101 数据集上相对于其他图像到视频模型具有较强的图像保留能力和高 FVD 得分。更多详细信息和全面结果将在文中进行详细阐述。
Dec, 2023
通过使用基于扩散模型建立的噪声 - 视频映射,由搜索 - 反转流程逼近文本输入的最佳噪声,同时通过一个语义保持改写器来丰富文本提示,实现文本到视频模型的有效优化。
Nov, 2023
在计算机视觉中,从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法,能够实现对可移动区域的运动方向和速度的精确控制,同时在保持内容、场景和动作协调一致性的同时生成长度超过 100 帧的长时间视频。
May, 2024
通过对预训练的视频扩散模型进行对抗训练,我们提出了一种新颖的方法,通过单步合成高质量视频来获得单步视频生成模型,捕捉视频数据中的时间和空间依赖关系,从而大大减少计算成本,为实时视频合成和编辑铺平了道路。
Jun, 2024
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
利用大规模视频数据集和扩散模型的进展,本研究通过引入多个文本条件,拓展了文本驱动视频生成模型的生成能力,解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。
Oct, 2023
我们提出了一种对生成式视频扩散模型的训练无关的视频插值方法,通过将视频模型转换为自级联视频扩散模型并结合设计的隐藏状态校正模块,保持关键帧与插值帧之间的时间一致性。在多个受欢迎的视频模型上进行了广泛的评估,证明了该方法的有效性,特别是我们的训练无关方法甚至可以与由大量计算资源和大规模数据集支持的训练插值模型相媲美。
Jun, 2024