Jan, 2020

众人皆醉我独醒:让我依你所愿地说话

TL;DR该研究提出了一种基于音频输入的编辑目标肖像画面的方法,通过将目标视频帧分解为表情、几何和姿势三个正交参数空间,再利用循环神经网络将源音频转化为表情参数,并在保留原始视频背景的同时合成一个逼真的人物主体,最后利用动态编程构建一个有序连贯且令人信服的逼真视频。