Oct, 2019

Transformer-Transducer: 自注意力端到端语音识别

TL;DR本文研究了使用 Transformer 网络来实现端到端语音识别,提出使用 VGGNet 结合因果卷积来降低计算复杂度,同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验,该方法相比于基于 LSTM/BLSTM 的神经输入转换器,获得了更好的识别效果,并实现了流式处理。