Feb, 2024

动态贴纸:通过视频扩散让贴纸栩栩如生

TL;DR我们引入了动画贴纸,一种根据文本提示和静态贴纸图像生成动画的扩散模型。我们的模型建立在最先进的Emu文本图像模型基础上,并通过添加时间层来模拟动作。为了弥合领域差异,即视觉和动作风格的差异,一个在生成自然视频方面表现良好的模型在应用于贴纸时无法生成生动的视频。为了弥合这一差距,我们采用了两阶段微调流程:首先使用弱域内数据,然后采用多教师集成策略,在人机协同策略下提取多个教师的最佳品质,进而生成较小的学生模型。我们展示了这种策略在保持静态图像风格的同时,针对动作质量的改进。通过推理优化,我们的模型能够在一秒钟内生成高质量、有趣且相关的八帧视频。