Dec, 2023

DreamVideo: 高保真图像到视频生成(具备图像保留和文本指导)

TL;DR我们提出了一种高保真度的图像到视频生成方法,通过在预先训练的视频扩散模型上设计一个帧保留分支,名为DreamVideo,来解决现有方法的局限性,该方法通过卷积层感知参考图像,并将特征与噪声潜在变量连接起来作为模型输入。同时,通过结合无分类器指导的双条件,可以通过提供不同的提示文本将单个图像导向不同动作的视频,使得视频的生成具备精确控制能力。综合实验表明,我们的方法在公开数据集上表现出色,无论是定量还是定性结果都优于现有方法,并且在UCF101数据集上相对于其他图像到视频模型具有较强的图像保留能力和高FVD得分。更多详细信息和全面结果将在文中进行详细阐述。