May, 2023
基于扩散模型的可控文本到视频生成
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li...
TL;DR本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。