Jan, 2022

面向异构来源实现逼真的视觉配音

TL;DR本文提出了一种简单而高效的两阶段框架,通过面部特征作为中间先验,从真实说话头生成的核心任务中区分出音频和图像的同步和生成,以更容易获取的杂类数据培训两个子网,以及允许对给定的说话头进行进一步的微调,从而实现高保真的 few-shot 视觉配音。