Jan, 2020

使用Transformer模型进行流式自动语音识别

TL;DR通过使用自我注意力来模拟时间上下文信息,基于编码器-解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于Transformer的流式ASR系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的ASR场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器-解码器的关注机制。在LibriSpeech的测试数据上,我们的方案分别达到了2.8%和7.2%的词错误率,这是我们所知道的这个任务的最好的流式端到端ASR成果。