May, 2024

OpFlowTalker:通过光流引导实现逼真自然的说话人脸生成

TL;DR通过应用光流来指导面部图像生成,增强帧与帧之间的连续性和语义一致性,这篇论文提出了一种名为 “OpFlowTalker” 的新方法,利用音频输入预测的光流变化而非直接预测图像,平滑图像的过渡并使其与语义内容相吻合,通过序列融合技术替代单帧的独立生成,同时引入光流同步模块来调节全脸和唇部运动,优化视觉合成的区域动态,并引入了一种可以准确测量合成视频中唇读能力的 “视觉文本一致性得分(VTCS)”,广泛的实证证据验证了我们的方法的有效性。