Oct, 2019

基于Transformer序列到序列模型的自动语音识别纠错

TL;DR本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于Transformer的编码器-解码器架构,将ASR模型输出“翻译”成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在LibriSpeech基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的dev-other和test-other部分的评估数据集上。我们的模型还通过6-gram语言模型重新评分超过了基础模型,并接近于使用Transformer-XL神经语言模型重新评分的性能。