Apr, 2024

情绪增强的多模一次拍摄头像

TL;DR我们对 MegaPortraits 模型进行了深入的检查和评估,重点关注其用于面部表情描述符的潜在空间,并发现了其表达强烈面部动作能力的几个局限。为解决这些限制,我们提出了针对训练流程和模型架构的重大改进,推出了我们的 EMOPortraits 模型。该模型增强了对于真实支持强烈非对称面部表情的能力,在情感转移任务中取得了新的技术水平,在指标和质量方面超越了以往的方法。此外,我们将语音驱动模式融入模型,实现了在音频驱动的面部动画中的顶级性能,使得通过不同的模态,包括视觉信号、音频或两者的混合驱动源标识成为可能。还提出了一个新颖的多视角视频数据集,包括广泛范围的强烈非对称面部表情,填补了现有数据集中这类数据的空白。