Dec, 2023

TransFace:基于单元的视听语音合成器,用于说话头部翻译

TL;DR通过自监督学习获得的离散单元,直接语音翻译实现高质量结果,克服了模型级联带来的延迟和级联错误;本文提出了一种名为 TransFace 的模型,用于直接将视听语音翻译成其他语言的视听语音,通过语音到单元翻译模型和基于单元的视听语音合成器 Unit2Lip 实现音频与视频的同步语音重新合成,进一步引入了有界时长预测器以确保等时转头说话的翻译并防止重复参考帧