Jun, 2022

Face-Dubbing++: 视频的口形同步,保留音频的翻译

TL;DR本文提出了一种基于神经网络的端到端系统,用于语音保留、唇面同步翻译视频,通过多个组件模型的组合,该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频,并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验,我们的系统能够有效地产生令人信服的视频,而且我们也分别对系统的单个组件进行了测试。