IJCAIMay, 2023

跨模态全局交互与局部对齐的视听语音识别

TL;DR本文提出了一种跨模态全局交互和局部对齐 (GILA) 方法,从全局和局部角度捕捉音频 - 视觉 (A-V) 间的深层相关性,用于改善音频 - 视觉语音识别中的多模态表示,实验结果表明我们的方法优于现有的有监督学习方法。