Nov, 2023

MicroCinema: 一种用于文本到视频生成的分而治之的方法

TL;DR我们提出了MicroCinema,这是一个简单却有效的框架,用于高质量和连贯的文本到视频生成。通过将文本到视频分为两个阶段的过程,即文本到图像生成和图像和文本到视频生成,MicroCinema具有两个显著优势:a) 利用最新的文本到图像模型,如Stable Diffusion,Midjourney和DALLE,生成逼真和高度详细的图像;b) 借助生成的图像,模型可以将较少的注意力放在细粒度外观细节上,优先学习动态运动。通过引入Appearance Injection Network和Appearance Noise Prior这两个核心设计,MicroCinema能够生成由提供的文本提示引导的高质量视频。广泛的实验表明了该方法的优越性。具体而言,MicroCinema在UCF-101上实现了342.86的零样本FVD和在MSR-VTT上实现了377.40的零样本FVD。点击此链接查看视频示例。