May, 2020

大规模语音识别常用端到端模型比较

TL;DR本研究比较了非流式和流式模式下三种端到端自动语音识别模型,包括循环神经网络转导器(RNN-T)、循环神经网络基于注意力的编码器 - 解码器(RNN-AED)和 Transformer-AED。研究表明,Transformer-AED 在流式和非流式模式下的精度最佳,并且在流式模式下如果其编码器可以正确初始化,RNN-T 也是一个具有竞争力的模型。与高度优化的混合模型相比,流式 RNN-T 和 Transformer-AED 模型均可以获得更好的精度。