Jan, 2024

CustomVideo: 多主题文本生成定制视频

TL;DR在本工作中,我们提出了一种名为 CustomVideo 的新型框架,该框架可以生成多个主题引导下的保持身份特征的视频。我们通过将多个主题组合于单个图像中来促进多主题同时出现;在基本的文本到视频扩散模型上,我们设计了一种简单而有效的注意力控制策略,以在扩散模型的潜在空间中解开不同的主题;此外,为了帮助模型专注于特定的对象区域,我们从给定的参考图像中分割对象,并为注意力学习提供相应的对象蒙版。我们还收集了一个多主题文本到视频生成数据集作为全面的基准,其中包含 69 个个体主题和 57 个有意义的主题对。广泛的定性、定量和用户研究结果证明了我们方法的优越性,与之前的最先进方法相比。