May, 2023

基于扩散模型的可控文本到视频生成

TL;DR本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。