Feb, 2024

上下文感知的说话人脸视频生成

TL;DR通过使用面部特征作为控制信号,我们提供了一个两阶段和跨模态可控的视频生成流程,以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明,该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。