ICCVAug, 2023

通过零样本表情风格转移使您的语音化形象生动活泼

TL;DR本文提出了一种无监督的变分风格转换模型 (VAST),以唤醒中性逼真头像的表情。该模型包括三个关键组成部分:从给定的视频提示中提取面部风格表示的风格编码器;用于模拟准确的与语音相关的动作的混合面部表情解码器;用于增强风格空间的变分风格增强器,以提高表达性和寓意性。通过面部风格学习的关键设计,我们的模型能够灵活地从任意视频提示中捕捉表达性的面部风格,并以零样本的方式将其转移到个性化的图像渲染器上。实验结果表明,所提出的方法能够产生更生动、更真实、更丰富表达的说话头像。