CVPRMay, 2020

判别式多模态语音识别

TL;DR本文提出了一种基于视听的两阶段语音识别模型,该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率,同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能,实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升,表明 AE-MSR 的必要性和有效性。