ACLJun, 2022

使用合成数据的端到端自适应语音识别系统的简单基线

TL;DR本文提出了一种简单的基线技术,使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据,并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调,结果表明,单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.