Apr, 2023

StyleLipSync: 基于风格的个性化唇语视频生成

TL;DR本文介绍了 StyleLipSync,这是一个基于风格的个性化唇形同步视频生成模型,可从任意音频生成与身份无关的唇形同步视频。模型通过在预先训练的 StyleGAN 的语义丰富潜空间中利用表达性嘴唇先验来生成具有任意身份的视频。与之前的唇形同步方法相比,我们引入了姿态感知掩蔽,通过逐帧使用 3D 参数网格预测器动态定位掩蔽,以提高过帧自然性。此外,我们还提出了一种少量样本的唇形同步适应方法,引入同步正则器来保持唇形同步的泛化性,同时增强个人特定的视觉信息。广泛的实验证明,我们的模型可以生成准确的唇形同步视频,甚至可以在零样本设置下通过拟合少量秒数的目标视频增强看不见的面部特征。