Dec, 2023

VMC: 使用时间注意力调适进行视频动作定制的文本到视频扩散模型

TL;DR文本到视频扩散模型大幅推进了视频生成,但个性化定制这些模型以生成具有定制运动的视频对其提出了重大挑战,主要困难包括准确复制目标视频的运动及创建多样化的视觉变化。为解决这些问题,我们提出了一种名为视频运动定制(VMC)框架的新一键调整方法,用于适应视频扩散模型内的时间注意力层。该方法引入了一种新颖的运动 “蒸馏” 目标,利用连续帧之间的残差向量作为运动参考。扩散过程保留低频运动轨迹,同时减少图像空间中高频运动无关噪声。我们在各种真实运动和场景下将该方法与最先进的视频生成模型进行了验证。我们的代码、数据和项目演示可以在此 https URL 找到。