Apr, 2019

Jasper: 一种端到端卷积神经声学模型

TL;DR本文提出一种仅使用 1D 卷积、批量归一化、ReLU、dropout 和残差连接的端到端语音识别模型 Jasper,结合新的层次优化器 NovoGrad,实现更好的训练和更高的准确率,最先进的 Jasper 变体使用 54 个卷积层,基于 LibriSpeech test-clean 数据集使用束搜索解码器和外部神经语言模型实现 2.95% WER 和贪心解码器实现 3.86% WER,并在 Wall Street Journal 和 Hub5'00 交际评估数据集上获得了有竞争力的结果。