Mar, 2024

S2DM: 视频生成的扇形扩散模型

TL;DR我们提出了一种新颖的扇形扩散模型(S2DM),通过一组从相同噪声点开始的射线状反扩散过程形成的扇形扩散区域,S2DM 可以生成一组具有相同语义和随机特征的内在相关数据,但在时间特征上有适当的引导条件所变化。我们将 S2DM 应用于视频生成任务,并探索了光流作为时间条件的使用。实验结果表明,S2DM 在视频生成任务中的表现优于许多现有方法,而不需要任何时间特征建模模块。对于文本到视频生成任务,在没有明确给定时间条件的情况下,我们提出了一种两阶段生成策略,可以将时间特征的生成与语义内容特征的生成分离开来。我们展示了在没有额外训练的情况下,将我们的模型与另一个时间条件生成模型集成仍然可以达到与现有作品相当的性能。