ACLJun, 2023

嘈杂环境下唇读识别:通用视音位映射与转移提升音视频语音识别鲁棒性

TL;DR本文提出了一种基于视觉模态的无监督噪声适应方案,使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明,我们的方法在各种噪声和清晰条件下都达到了最先进水平,此外在视觉语音识别任务上也优于之前的最优水平。