Jan, 2023

高效音视关联的 Conformer 用于鲁棒语音识别

TL;DR本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性,并在 LRS2 和 LRS3 数据集上进行了实验。结果表明,使用音频和视觉模态可以更好地识别存在环境噪声的语音,并显着加速训练,达到了 2.3%和 1.8%的字错误率。