AAAIDec, 2022

通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别

TL;DR我们提出了一个基于强化学习的框架(MSRL),动态地协调模态不变和模态特异性的表示,从而稳定地提供互补信息,用于音视频语音识别任务,实验结果表明,此方法在 LRS3 数据集中取得了最新的成果。