BriefGPT.xyz
Ask
alpha
关键词
modality feature learning
搜索结果 - 1
MLCA-AVSR:基于多层交叉注意力融合的音视频语音识别
提出了一种多层交叉注意力融合的视听语音识别方法,通过在不同的音频 / 视觉编码器层级融合各种模态,实现了每种模态的表示学习,实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为
→
PDF
6 months ago
Prev
Next