Aug, 2023

SimDA:用于高效视频生成的简易扩散适配器

TL;DR本文提出了一种 Simple Diffusion Adapter (SimDA) 方法,通过微调一个强大的 Text-to-Image (T2I) 模型的 24M 个参数,以高效的方式将其适应于视频生成,并使用轻量级的空间和时间适配器进行转移学习,为了达到视频的一致性还提出了一种新的潜在干扰 Attention (LSA) 方法。此外,我们还使用相似的模型架构训练了一个视频超分辨率模型,以生成高清 (1024x1024) 视频。SimDA 不仅可用于野外的 T2V 生成,还能够在 2 分钟的调整中实现一键视频编辑,以极少的可调参数来减少训练工作量。