May, 2024
DisenStudio:定制化多主题文本到视频生成与解耦空间控制
DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control
Hong Chen, Xin Wang, Yipeng Zhang, Yuwei Zhou, Zeyang Zhang...
TL;DR本文提出了一种名为 DisenStudio 的新框架,通过增强预训练的基于扩散的文本到视频模型,使用空间分离的交叉注意机制将每个主题与期望的动作相关联,并使用三种微调策略来定制多个主题。通过广泛的实验证明,DisenStudio 在各种指标上明显优于现有方法,并且可以作为各种可控生成应用的强大工具。