Dec, 2023

DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

TL;DRDREAM-Talk 是一个两阶段扩散式音频驱动框架,通过 EmoDiff 生成多样的动态情感表达和姿态,并使用音频特征和情感风格来提升唇部同步准确性,通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像,在表达性、唇部同步准确性和感知质量方面超过现有方法。