FreeNoise:无需调整的长视频扩散通过噪音重新调度
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
本文提出了一种新的视频综合方法,它使用预训练模型,并使用经过精心设计的视频噪声先验来生成高质量,时域一致的序列帧,获得了在 UCF-101 和 MSR-VTT 基准测试上 SOTA 的无需训练文本到视频结果。同时,在较小的 UCF-101 基准测试中使用更少的计算资源, $10 imes$更小的模型,达到了SOTA的视频生成质量。
May, 2023
使用参考引导的潜在扩散方法,VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023
通过使用基于扩散模型建立的噪声-视频映射,由搜索-反转流程逼近文本输入的最佳噪声,同时通过一个语义保持改写器来丰富文本提示,实现文本到视频模型的有效优化。
Nov, 2023
通过深入研究视频扩散模型的噪声初始化,我们发现了一种训练与推理之间的隐式差距,为此我们提出了一种名为FreeInit的简洁而有效的推理采样策略,显著提高了扩散模型生成的视频的时间一致性。
Dec, 2023
我们提出了一种基于预训练扩散模型的新推理技术,用于文本条件视频生成。我们的方法名为FIFO-Diffusion,能够概念性地生成无需训练的无限长视频。通过迭代地进行对角去噪处理,我们同时处理一个队列中噪声逐渐增加的一系列连续帧;我们的方法在队列头部出队完全去噪的帧,并在队列尾部入队一个新的随机噪声帧。但是,对角去噪处理是一把双刃剑,因为靠近尾部的帧可以通过向前引用来利用更干净的帧,但这种策略会引起训练和推理之间的差异。因此,我们引入了潜在分区来减小训练和推理之间的差距,并引入了前瞻去噪来利用向前引用的好处。我们已经在现有的文本到视频生成基准上展示了该方法的有希望的结果和有效性。
May, 2024
本研究解决了现有视频扩散模型只能生成短视频片段的局限性,通过引入逐渐增加的噪声水平,有效地扩展了模型的能力。此创新方法实现了无质量衰退的自回归视频帧生成,取得了在长达1分钟(1440帧,24 FPS)视频生成上的最佳效果。
Oct, 2024