Nov, 2023

鸸鹋视频:通过明确图像调节来因式分解文本到视频生成

TL;DR我们提出了 Emu Video,一个文本到视频生成模型,将生成过程分解为两个步骤:首先根据文本生成图像,然后根据文本和生成的图像生成视频。我们确定了关键的设计决策 - 对扩散进行调整的噪声计划和多阶段训练,使我们能够直接生成高质量高分辨率的视频,而无需像之前的工作那样需要一系列深度模型级联。在人工评估中,与所有之前的工作相比,我们生成的视频在质量上都得到了极高的评价 - 相对于 Google 的 Imagen Video 为 81%,Nvidia 的 PYOCO 为 90%,Meta 的 Make-A-Video 为 96%。我们的模型胜过商业解决方案如 RunwayML 的 Gen2 和 Pika Labs。最后,我们的分解方法自然地提供了根据用户的文本提示给图像赋予动画效果的能力,在这方面,我们的生成结果相对于之前的工作得到了 96% 的偏好。