Jan, 2024

MLCA-AVSR:基于多层交叉注意力融合的音视频语音识别

TL;DR提出了一种多层交叉注意力融合的视听语音识别方法,通过在不同的音频 / 视觉编码器层级融合各种模态,实现了每种模态的表示学习,实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能,并相对于前期系统获得了最多 3.17% 的相对改进,同时超过了第一名系统,获得了该数据集上的新的最先进 cpCER 为 29.13%。