Aug, 2023

MeDM:基于时间对应指导的图像扩散模型的视频到视频翻译

TL;DR本研究介绍了一种高效有效的方法,MeDM,利用预训练的图像扩散模型进行视频到视频的翻译,保持一致的时间流。该提出的框架可以从场景位置信息(如常规 G 缓冲区)渲染视频,或对在真实场景中捕获的视频进行文本引导编辑。我们采用显式光流构建了一种实用编码方式,对生成的帧施加物理约束并调节独立的逐帧评分。通过利用这种编码,确保生成的视频在时间上保持一致可以被看作是一个具有闭合形式解的优化问题。为确保与稳定扩散的兼容性,我们还提出了一种方法修改潜在空间扩散模型中的观察空间评分。值得注意的是,MeDM 不需要对扩散模型进行微调或测试时优化。通过对各种基准测试进行广泛的定性、定量和主观实验证明了该方法的有效性和优越性。