Mar, 2024

全人工合成实验室中准确的唇语到语音合成

TL;DR提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法,通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入,并使用视觉流生成与输入视频同步的准确语音,通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性,并在辅助技术中展示了其重要的实际应用。