MMMay, 2024

多解码器与知识蒸馏的流式与非流式自动语音识别的联合优化

TL;DR本文通过使用多解码器和知识蒸馏来实现流式和非流式自动语音识别(ASR)的联合优化,主要研究了 ASR 模块的编码器整合、分离解码器以实现灵活切换模式,以及通过两个模块化编码器和解码器之间的相似性保持知识蒸馏来提高性能。评估结果显示,在单一模型中与多个独立模块相比,流式 ASR 的字符错误率相对减少了 2.6%-5.3%,非流式 ASR 的字符错误率相对减少了 8.3%-9.7%。