优化噪声追求以增强文本到视频生成
本文提出了一种新的视频综合方法,它使用预训练模型,并使用经过精心设计的视频噪声先验来生成高质量,时域一致的序列帧,获得了在 UCF-101 和 MSR-VTT 基准测试上 SOTA 的无需训练文本到视频结果。同时,在较小的 UCF-101 基准测试中使用更少的计算资源, $10 imes$更小的模型,达到了SOTA的视频生成质量。
May, 2023
使用参考引导的潜在扩散方法,VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023
利用大规模视频数据集和扩散模型的进展,本研究通过引入多个文本条件,拓展了文本驱动视频生成模型的生成能力,解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。
Oct, 2023
最近,视频生成引起了广泛关注并取得了显着成果。针对视频的特点,多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型,通过直接利用预训练的基于扩散的文本到视频转换模型进行生成,而无需额外的微调。为了生成连续的视频片段,不同提示生成的视觉一致性是必要的,具有多样的变化,如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演,用于在不同提示的视频之间重新初始化噪声潜变量,以保持视觉一致性并防止重复运动或内容。此外,我们提出了结构导向采样,以在单个视频剪辑的帧之间保持全局外观,其中我们通过对前一帧进行迭代潜变量更新。此外,我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例:[此链接](https://this_URL)
Dec, 2023
本研究旨在解决生成图像与提供的提示之间的无缝对齐问题,通过引入“初始噪声优化”(InitNO)方法,通过评估初始噪声,并通过噪声优化来生成符合文本提示的图像。
Apr, 2024
提出了TI2V-Zero:一种无需优化或微调的零样本方法,通过使用预训练的文本到视频扩散模型,使其能够在给定图像的条件下生成实际视频。该方法使用“重复滑动”策略来引导视频生成,并提供了一种保持视觉细节的新合成帧初始化和重新采样技术,从而实现视频的逐帧合成。TI2V-Zero在领域特定和开放领域数据集上的实验证明了其优越性能,并且能够无缝扩展到其他任务和支持长视频生成。
Apr, 2024
我们提出了一种基于预训练扩散模型的新推理技术,用于文本条件视频生成。我们的方法名为FIFO-Diffusion,能够概念性地生成无需训练的无限长视频。通过迭代地进行对角去噪处理,我们同时处理一个队列中噪声逐渐增加的一系列连续帧;我们的方法在队列头部出队完全去噪的帧,并在队列尾部入队一个新的随机噪声帧。但是,对角去噪处理是一把双刃剑,因为靠近尾部的帧可以通过向前引用来利用更干净的帧,但这种策略会引起训练和推理之间的差异。因此,我们引入了潜在分区来减小训练和推理之间的差距,并引入了前瞻去噪来利用向前引用的好处。我们已经在现有的文本到视频生成基准上展示了该方法的有希望的结果和有效性。
May, 2024
Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.
Jun, 2024