ICCVJul, 2023

堵塞泄漏:通过防止无意的信息传递推进基于音频的说话人脸生成

TL;DR利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务,其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题,包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题:第一,通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像;第二,使用自适应三元损失解决姿势信息泄露问题;最后,我们提出了一个稳定的同步损失表达式,解决了训练不稳定性问题,并进一步减轻了唇部信息泄露问题。通过结合这些改进,我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计,确认了各个改进措施的独立贡献以及它们的互补效果。