Feb, 2023

使用知识蒸馏的语言通用适配器学习实现端到端多语言语音识别

TL;DR本文提出了一个基于预训练模型的语言通用适配器学习框架,用于端到端的多语言自动语音识别。通过插入特定于语言和语言通用适配器来微调 Wav2Vec 2.0 预训练模型,然后使用在线知识蒸馏来使语言通用适配器学习特定于语言和通用特征,通过利用语言识别器(LID)降低语言信息混淆,进而改善识别准确率,并解决通用多语种 ASR 系统中适配器参数数量随语言数量线性增长的问题,BABEL 数据集上的实验结果验证了所提出框架的有效性,并相比传统的多语种模型取得了 3.3%的绝对误差率的降低。