CVPRMay, 2024

面部说话:从文本中联合合成说话脸部和语音

TL;DR利用文本生成自然的说话面部表情和语音输出,通过将 Talking Face Generation (TFG) 和 Text-to-Speech (TTS) 系统整合到一个统一框架中,在解决头部姿态生成和声音一致性等挑战的同时,实现了高质量的运动代码生成和均匀语音输出。