IJCAIMay, 2023
跨模态全局交互与局部对齐的视听语音识别
Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition
Yuchen Hu, Ruizhe Li, Chen Chen, Heqing Zou, Qiushi Zhu...
TL;DR本文提出了一种跨模态全局交互和局部对齐 (GILA) 方法,从全局和局部角度捕捉音频 - 视觉 (A-V) 间的深层相关性,用于改善音频 - 视觉语音识别中的多模态表示,实验结果表明我们的方法优于现有的有监督学习方法。