Nov, 2020

使用合成音频改善端到端 ASR 系统中新词的识别

TL;DR利用 TTS 引擎为训练数据中不常见的词提供合成音频,并使用正则化技术在编码器上应用弹性权重整合,从而提高 RNN-T 对 OOV 词的识别准确率并保持对非 OOV 词的性能,相对 WER 可减少 57%。