May, 2019

使用基于注意力的双向 LSTM 网络从单个音频生成语音 / 面部动画

TL;DR本文提出了一种端到端的深度学习方法,用于从音频中实时生成面部动画,采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示,并自动推断不同水平的面部动作,并随着输入音频中的相应音高和潜在说话风格保持一致,无需预设或进一步的人类干预,评估结果表明,我们的方法不仅能够从音频中生成准确的嘴唇运动,还能成功回归说话人的时间变化的面部运动。