Feb, 2023

使用整合的文本 - 梅尔频谱生成器进行端到端语音识别的纯文本领域自适应

TL;DR这篇论文提出了一个端到端的自动语音识别系统,可以使用带有转录的语音数据、纯文本数据或两者的混合数据进行训练。该系统通过使用文本数据可显著提高在不同领域的 ASR 模型的准确性,在扩展 ASR 模型中引入 TTS 块从而创建梅尔频谱图,该块包含了一个非自回归的文本生成模型以及 GAN 增强器来提高模型性能。