Jun, 2022

关于RNN-T语音识别模型中预测网络结构的研究

TL;DR本文比较了针对单调和原始RNN-T模型的几种预测网络结构,并在Librispeech和内部医疗对话数据集上报告了结果。其中提出了一种新的预测网络架构N-Concat,表现优于其他。相比LSTM基线,我们获得了高达4.1%的相对WER改进,同时将预测网络参数减少了近一个数量级(8.4倍)。