Feb, 2023

文本或语音驱动的统一人脸标记生成器

TL;DR提出一种统一的面部标记生成器(Unified facial landmark generator),利用端到端的文本到语音不仅用于合成语音,还用于提取一系列与文本和语音共同的潜在表示,将其馈送至标记解码器以生成面部标记,并演示这个系统在语音合成和面部地标生成方面比最先进的基于文本的方法具有更高的真实性,可以从没有面部视频数据甚至语音数据的演讲者的语音中生成面部特征点。