AAAIDec, 2022
通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别
Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning
Chen Chen, Yuchen Hu, Qiang Zhang, Heqing Zou, Beier Zhu...
TL;DR我们提出了一个基于强化学习的框架(MSRL),动态地协调模态不变和模态特异性的表示,从而稳定地提供互补信息,用于音视频语音识别任务,实验结果表明,此方法在 LRS3 数据集中取得了最新的成果。