ACLJun, 2023

MIR-GAN:用对抗网络提炼用于音视频语音识别的帧层次模态不变表示

TL;DR本文提出了一种基于对抗网络的方法(MIR-GAN),旨在跨模态学习共享的表征,以减轻后续的多模态融合过程,并在公共基准 LRS3 和 LRS2 上得到了比现有技术更好的表现。