Nov, 2023

VSR 模型是否具有 LRS3 之外的泛化能力?

TL;DR通过创建名为 WildVSR 的新的视觉语音识别测试集,评估和分析现有的视觉语音识别模型对新测试数据的泛化能力,并发现相比于 LRS3 结果,公开可用的视觉语音识别模型在我们的测试集上表现明显下降,提示模型在无监督、更具挑战性的口型序列上泛化能力较差。我们公开了此新测试基准,以推动未来研究开发更加鲁棒的视觉语音识别模型。