Jan, 2024

将解码与知识蒸馏并行进行:从语言模型到端到端语音识别的有效知识蒸馏

TL;DR通过使用中间层和最终层,本研究提出了一种将BERT教师模型的知识蒸馏到自动语音识别模型中的新方法。实验证明,使用中间层作为蒸馏目标可以更有效地将语言模型知识蒸馏到较低的网络层,从而实现比外部语言模型的浅层融合更好的识别准确性,同时保持了快速并行解码。