Mar, 2020

基于决策模型的双通道端到端语音识别

TL;DR本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化,经过 Google Voice Search 的比较实验,正确率提高了 12%(相对于 LAS rescoring),在专有名词测试集上,提高了 23%。与传统大模型相比,最好的模型在 VS 上表现要好 21%。