Jan, 2020
众人皆醉我独醒:让我依你所愿地说话
Everybody's Talkin': Let Me Talk as You Want
Linsen Song, Wayne Wu, Chen Qian, Ran He, Chen Change Loy
TL;DR该研究提出了一种基于音频输入的编辑目标肖像画面的方法,通过将目标视频帧分解为表情、几何和姿势三个正交参数空间,再利用循环神经网络将源音频转化为表情参数,并在保留原始视频背景的同时合成一个逼真的人物主体,最后利用动态编程构建一个有序连贯且令人信服的逼真视频。