May, 2019

分层交叉模态对话脸动态像素损失生成

TL;DR提出了级联 GAN 方法来生成对话式人脸视频,该方法在不同的人脸形状、视角、面部特征和嘈杂声音条件下具有鲁棒性,通过将音频转换为高级结构,即面部标志点,然后在标志点的条件下生成视频帧,避免了不相关的音频视觉信号之间的假冒关联,利用动态可调整像素级损失和注意机制来解决像素抖动问题,并提出了一种新的基于回归的鉴别器结构来生成更清晰、更同步的面部动作图像,实验结果表明,我们的方法比现有方法在定量和定性比较中取得了显著更好的效果。