AAAIDec, 2021

单发音讯视觉相关性学习生成单次语言人脸

TL;DR本文提出了一种基于 AVCT 的新型一次性说话脸部生成框架,通过从特定说话者的音频和视觉动作中探索一致的相关性,然后将基于密集运动场的音频驱动的运动场转移至参考图像,以生成具有真实嘴部形状和生动运动的视频。