Oct, 2023

高效基于 Conformer 的端到端语音识别关键帧机制

TL;DR我们提出了一种使用关键帧的自注意力机制和下采样机制的方法,能够降低 Conformer 模型中自注意力机制的计算复杂度,并取得与基准模型相当或更高的性能。同时,我们的方法在模型训练和推断过程中,可以丢弃超过 60% 的无用帧,从而显著加速推断速度。