Jun, 2024

使你的演员说话:运动和外貌解耦的通用和高保真度的唇同步

TL;DR我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法,通过将唇部运动和视觉外观分离并分别生成,使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失,我们可以保留个人身份信息,并通过使用独立编码器对唇部、非唇部外观和运动进行编码,并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明,我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。