Sep, 2022

利用预训练图像生成器从语音音频中生成 Talking Head

TL;DR本文提出了一种基于卷积神经网络模型和预先训练的 StyleGAN 生成器的新方法,用于从语音音频和单个 ' 身份 ' 图像生成高分辨率的说话者视频。模型首先使用一个现有的编码器将每个视频帧映射到潜在空间中,然后从语音语句到图像生成器的潜在空间中的位移映射。最终,评估结果表明本文方法在标准指标上优于最新的先进方法,并在另一个常用数据集上获得可比较的性能。