MMSep, 2022

野外任意说话人唇语合成

TL;DR采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音,比其他基线模型表现更好,能够实现针对特定身份的微调和生成不同语音的语音序列。