Mar, 2022

使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟

TL;DR本文提出一种帧级模型,采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性,通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充,以达到更好的性能。实验表明,该模型在 LibriSpeech 数据集上具有较高的性能。