CVPRMay, 2020

学习个别讲话风格以实现准确的唇读语音合成

TL;DR本文提出了一种基于说话者唇部运动的语音合成方法,通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计,该模型可以更准确、自然地模拟说话者的语音,其量化、定性评估结果表明,该方法比现有方法的可理解性提高了四倍。