ECCVAug, 2022

具有用户相关填充的说话人自适应唇读

TL;DR本文提出了一种音频读唇的说话人自适应方法,该方法针对模型训练与测试时说话人不匹配的情况,使用特定的输入(称为用户相关填充)参与预先训练的模型的视觉特征提取阶段,以进行适应性的个人化的视觉特征编码。