Dec, 2023

GMTalker:基于高斯混合模型的情感对话视频肖像

TL;DR用高保真度和可控情感的语音同步视频肖像合成,包括真实的表情、逼真的头部姿态和眨眼,是近年来一个重要且具有挑战性的任务。本文提出了 GMTalker, 一种基于高斯混合模型的情感性语音肖像生成框架,通过构建连续和多模态的潜变量空间实现更灵活的情感操作,结合流动场的动作生成器和个性化情感引导头部生成器,能够合成高保真度和忠实的情感视频肖像。定量和定性实验证明,我们的方法在图像质量、逼真度、情感准确性和动作多样性等方面优于先前的方法。