Jul, 2023

SparseVSR: 轻巧且抗噪声的视觉语音识别

TL;DR深度学习神经网络在视觉语音识别方面取得了前所未有的成功,本研究通过不同的基于幅度的修剪技术,生成了一个轻量级模型,其在视觉噪声存在的情况下表现出比其密集模型等效性能更高的水平,在 LRS3 数据集的 10%稀疏度下实现了最先进的结果,并在 70%稀疏度下优于密集等效性水平,我们在 7 种不同的视觉噪声类型上评估了我们的 50%稀疏模型,并且相对于密集等效性模型,绝对词错误率的改善超过 2%,我们的结果证实稀疏网络比密集网络对噪声更具抗干扰性。