BriefGPT.xyz
Ask
alpha
关键词
visual modality-specific representations
搜索结果 - 1
AAAI
通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别
我们提出了一个基于强化学习的框架(MSRL),动态地协调模态不变和模态特异性的表示,从而稳定地提供互补信息,用于音视频语音识别任务,实验结果表明,此方法在 LRS3 数据集中取得了最新的成果。
PDF
2 years ago
Prev
Next