Jun, 2024

动作一致性模型:使用解耦的运动 - 外观蒸馏加速视频扩散

TL;DR运用图像扩散提炼高保真生成的方法对视频扩散应用直接导致了公开视频数据集中视觉质量有限的帧质量不尽如人意的问题。研究旨在利用丰富的高质量图像数据提高视频扩散提炼的品质,同时改进帧外观。提出了一种称为运动一致模型 (MCM)的单阶段视频扩散提炼方法,通过分离运动和外观学习来改善视频扩散提炼。MCM 包括一个可以从视频教师模型中提炼运动的视频一致性模型和一种增强帧外观以匹配高质量图像数据的图像鉴别器。通过引入分离化的运动提炼和混合轨迹提炼来解决两个挑战:冲突的帧学习目标以及由于训练和推断中使用的视频样本质量不同而产生的训练 - 推断偏差。大量实验结果表明,MCM 达到了最先进的视频扩散提炼性能,并且方法可提高视频扩散模型的帧质量,能够生成具有高美感得分或特定风格的帧,而无需相应的视频数据。