Feb, 2024

EMO: 表情肖像的生命之躍 - 在弱條件下使用 Audio2Video 擴散模型生成有表情的肖像視頻

TL;DR在这项工作中,我们通过关注音频线索和面部动作之间的动态和微妙关系,解决了提高说话视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性,常常无法捕捉到人类表情的全谱和个体面部风格的独特性。为了解决这些问题,我们提出了 EMO,这是一个新颖的框架,利用直接的音频到视频合成方法,绕过了中间的 3D 模型或面部标记的需求。我们的方法确保了平滑的帧过渡和在整个视频中的一致身份保护,从而产生高度表现力和逼真的动画。实验结果表明,EMO 不仅能够产生令人信服的说话视频,还能以各种风格生成唱歌视频,其在表现力和逼真度方面明显优于现有最先进的方法学。