Jul, 2023

RobustL2S: 利用自监督表示技术进行说话人特异性的唇语到语音合成

TL;DRRobustL2S 是一种模块化的 Lip-to-Speech 合成框架,通过自监督学习对 Lip 形象进行映射,获得一种解耦的语音内容特征,再利用 vocoder 将语音特征转化为原始的声波信号,实现了在多个数据集上的最佳表现。