Oct, 2023

Zipformer:一种更快、更好的自动语音识别编码器

TL;DR我们提出了一种更快、更节省内存、性能更好的变压器模型Zipformer,它通过在U-Net类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作,重新组织块结构以提高效率,使用BiasNorm的修改形式来保留一些长度信息,新的激活函数SwooshR和SwooshL的表现优于Swish,通过一个名为ScaledAdam的优化器进行更新尺度的调整,相对变化保持大致相同,并明确学习参数尺度,在LibriSpeech、Aishell-1和WenetSpeech数据集上进行了大量实验,证明了我们提出的Zipformer在与其他最先进的ASR模型相比的有效性。