Jun, 2024

RealTalk:基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

TL;DR该论文提出了一个新颖的通用音频驱动框架 RealTalk,包括音频到表情转换和表情到人脸渲染两个组成部分,通过跨模态注意力对丰富的面部先验信息进行对齐,以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明,它在唇语同步和生成质量方面具有明显的优势,并且具有高效且需要较少计算资源的特点,非常适合实际应用。