Jun, 2023

使用文本和结构指导生成定制视频

TL;DR本文提出了一种使用文本作为上下文描述和动作结构(例如逐帧深度)作为具体指导的定制视频生成方法,涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明,该方法在时间一致性和与用户指导的忠实度方面表现优异,特别是在现有基线模型方面具有更好的性能。