May, 2024

MOFA-Video: 冻结图像到视频扩散模型中的生成运动场适应的可控图像动画

TL;DRMOFA-Video通过使用各种额外的可控信号(例如人类标志物参考、手动轨迹以及另一个提供的视频)或其组合,从给定的图像生成视频。MOFA-Video不同于先前只能在特定运动范围内工作或显示弱控制能力的方法,为了实现我们的目标,我们设计了几个领域感知的运动适配器(即MOFA-Adapters)来控制视频生成流程中生成的运动。对于MOFA-Adapters,我们首先考虑视频的时间运动一致性,并从给定的稀疏控制条件生成稠密运动流,然后将给定图像的多尺度特征包装为稳定视频扩散生成的引导特征。我们分别对手动轨迹和人类标志物进行了两个运动适配器的训练,因为它们都包含有关控制的稀疏信息。在训练之后,不同域中的MOFA-Adapters也可以一起工作以实现更可控的视频生成。