May, 2024

FIFO-Diffusion: 从文本生成无需训练的无限视频

TL;DR我们提出了一种基于预训练扩散模型的新推理技术,用于文本条件视频生成。我们的方法名为FIFO-Diffusion,能够概念性地生成无需训练的无限长视频。通过迭代地进行对角去噪处理,我们同时处理一个队列中噪声逐渐增加的一系列连续帧;我们的方法在队列头部出队完全去噪的帧,并在队列尾部入队一个新的随机噪声帧。但是,对角去噪处理是一把双刃剑,因为靠近尾部的帧可以通过向前引用来利用更干净的帧,但这种策略会引起训练和推理之间的差异。因此,我们引入了潜在分区来减小训练和推理之间的差距,并引入了前瞻去噪来利用向前引用的好处。我们已经在现有的文本到视频生成基准上展示了该方法的有希望的结果和有效性。