CVPRApr, 2021

音频驱动的情感视频肖像

TL;DR本文提出一种称为情感视频肖像 (EVP) 的系统,通过 Cross-Reconstructed Emotion Disentanglement 技术来将语音分解为情感和内容空间并提取二维情感面部特征,然后通过 Target-Adaptive Face Synthesis 技术来生成高质量的情感动态视频人像,该方法在定性和定量实验中均表现出良好的效果。