IJCAIDec, 2018

通过注意力音视一致性学习实现任意说话人脸生成

TL;DR本文提出了一种新的任意说话脸生成框架,通过提出的 AMIE 发现音频和视频信息之间的视听一致性,以及通过训练阶段中选择性聚焦输入图像的嘴唇区域来进一步增强唇部同步。在 LRW 数据集和 GRID 数据集上进行的实验结果显示,该方法在性别和姿势变化方面具有鲁棒的高分辨率综合,改进了现有方法在普遍指标上的性能。