MMSep, 2023

DiffTalker: 通过中间关键点协同驱动的音频 - 图像扩散方案用于口型模拟

TL;DR通过音频和地标联动,DiffTalker 模型可以生成逼真的说话人脸。DiffTalker 通过两种代理网络实现对几何精确性和纹理细节的处理,从而有效地生成清晰而几何精确的说话人脸。