ICCVJul, 2023

MODA: 双重关注音频驱动的人像动画的一次映射

TL;DR本文提出了一个统一的系统,用于多人、多样性和高保真度的说话肖像生成,并通过对嘴部运动的准确编码和多样性的双注意力模块设计以及稳定视频合成呈现出更加自然和真实的视频肖像。