May, 2023

语音识别的多头状态空间模型

TL;DR本文提出了一种带有特殊门控机制的多头状态空间(MH-SSM)架构,它可以作为多头注意力在转换器编码器中的替代品,在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果,在 LibriSpeech 语音识别数据集上提高了性能。同时,我们将 MH-SSMs 层与转换器块相结合,成为 Stateformer,且无需使用外部语言模型,在 LibriSpeech 任务中实现了最先进的性能,其开发和测试集上的字错率分别为 1.76%/4.37%和 1.91%/4.36%。