CVPRMay, 2023

基于关键点和外观先验的身份保持说话人脸生成

TL;DR提出了一种两阶段方法以生成更逼真、口型同步和较好地保留身份信息的谈话面部视频。第一阶段利用基于 Transformer 的关键点生成器从音频中提取嘴唇和下颌关键点,并根据说话人的脸部轮廓调整生成的关键点。在第二阶段中,视频渲染模型将关键点转换为面部图像,并利用静态参考图像中的先前外观信息生成更逼真的视觉内容。