Oct, 2019

基于 Transformer 序列到序列模型的自动语音识别纠错

TL;DR本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。