Aug, 2023

无声视频中重建高质量语音

TL;DR此研究提出了一种新颖的唇到语音系统,通过多个角度缓解一对多映射问题,包括引入自监督语音表示来消除同音异义词,并使用声学变异信息来建模多样的语音风格。此外,为了更好地解决上述问题,采用了基于流的后端网络来捕捉和优化生成语音的细节。广泛的实验证明,该方法实现了接近真实人类话语的语音生成质量,大幅度优于现有方法在语音自然度和可理解性方面。合成样本可在匿名演示页面 (this https URL) 上获取。