May, 2022

一种新颖的基于 CNN 和 LSTM 的语音驱动唇形同步模型

TL;DR使用一维卷积和 LSTM 的深度神经网络模型,结合语音识别模型和速度损失值的方式,实现了音频与动态唇形同步的三维面部建模和动画,其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。