Aug, 2023

通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别

TL;DR本文提出了两种新技术来改善音视频语音识别,通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位,以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明,使用相对较少的训练数据,该系统比复杂的前端和后端现有系统取得更好的性能。