CVPRMar, 2023

SynthVSR: 利用合成监督扩大视觉语音识别的规模

TL;DR本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR,利用大规模合成数据进行半监督学习,在公开数据集上实现了最新的性能。