May, 2024

DisenStudio:定制化多主题文本到视频生成与解耦空间控制

TL;DR本文提出了一种名为 DisenStudio 的新框架,通过增强预训练的基于扩散的文本到视频模型,使用空间分离的交叉注意机制将每个主题与期望的动作相关联,并使用三种微调策略来定制多个主题。通过广泛的实验证明,DisenStudio 在各种指标上明显优于现有方法,并且可以作为各种可控生成应用的强大工具。