Jul, 2023

一种全面的多尺度方法用于说话者外貌生成中的语音和动态同步

TL;DR利用深度生成模型和语音输入信号来为静止的面部图像添加动画是当前的研究热点,本文提出了一种多尺度音频视觉同步损失和多尺度自回归生成对抗网络来更好地处理语音和头部以及嘴唇之间的短期和长期关联,通过在面部关键点域中训练多模态输入金字塔上的同步模型堆栈,再结合多尺度生成网络以在不同时间尺度上生成音频对齐的动画,实验结果表明在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。