Dec, 2023

多模态注意力融合用于提升语音识别和音频事件分类

TL;DR使用自我监督目标进行大型基础模型的训练,然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合(MAM)方法,通过零 - shot 范式,实现了从高资源模态(文本和图像)的注意力矩阵到资源受限领域(语音和音频)的知识转移。MAM 可将自动语音识别(ASR)模型的相对字错误率(WER)降低多达 6.70%,将音频事件分类(AEC)模型的相对分类错误率降低 10.63%。在一些数据 / 计算资源可用的情况下,我们提出了可学习的 MAM 方法,用于合并注意力矩阵,进一步将 ASR 的 WER 降低 2.90%,AEC 降低 18.42%,相对于微调方法。