Dec, 2017

ObamaNet: 文本到照片级逼真唇语同步

TL;DR本文介绍了 ObamaNet 这一模型,该模型利用全可训练的神经模块,生成新文本的音频文件和同步的逼真唇形视频,其中所涉及的三个主要模块分别是基于 Char2Wav 的文本转语音网络、生成与音频同步的嘴部关键点的时延 LSTM 网络、以及基于 Pix2Pix 的条件渲染视频帧的网络。