May, 2023

掩码音频文本编码器是有效的多模态重评分器

TL;DR本研究提出了一种多模态语言模型的再评分方法,即 Masked Audio Text Encoder (MATE),将声学表征融入到 MLM 的输入空间中,通过对比学习来有效地对齐模态,证明了在目标领域数据不可用时,使用多模态重新评分器对 ASR 系统具有域泛化的益处。MATE 相比于仅使用文本数据的基准系统,在不同数据集上降低了 4%-16%的词错误率 (WER)。此外,即使在训练数据仅为 0.8 小时的情况下,MATE 仍比第一次通行证系统基线降低了 8%-23%的 WER。