SynthASR: 用于语音识别的合成数据解锁
利用 LibriSpeech 数据集,将合成语音与自然语音数据集相结合,使用神经网络训练的端到端自动语音识别模型达到了最新的状态,极大地推动了自动语音识别技术的进步。
Nov, 2018
通过训练一个转换文本数据的潜在合成器,我们提出了一种高效的文本数据利用框架 Latent Synthesis (LaSyn),用于 E2E 语音处理模型。在低资源自动语音识别(ASR)和口语理解(SLU)任务中,LaSyn 通过为模型训练提供了伪声学表示的文本数据,分别在不同测试集上使 E2E 基线的词错误率降低了 22.3% 以上,并提高了意图分类准确率 4.1% 和槽位填充准确率 3.8%,在 STOP 上分别提高了 4.49% 和 2.25% 的准确率。同时,LaSyn 使用更少的参数,取得了与现有最先进作品相媲美的结果,证明了增强训练数据的质量。
Oct, 2023
本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法,并证明仅需使用语音文本数据就可对 ASR 系统进行增强,相对于数据扩充的基线模型,本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。
Dec, 2019
本文提出了一种方法,通过训练神经网络来选择合适的合成语音样本,使其作为自动语音识别模型的辅助训练数据,这在训练中包括有实际的标注数据和合成的数据。在实验中,我们发现将与真实语音具有较大差异性的合成样本(由于词汇差异等原因)纳入到训练中对于提高语音识别性能至关重要,同时,我们的方法可以显著减小文本 — 语音转换(TTS)数据的大小。
May, 2023
本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强,并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中,实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具
May, 2023
比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统,其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录,第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能,相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性,误差增加了 2.42% 绝对值。
Nov, 2023
本文提出了一种简单的基线技术,使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据,并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调,结果表明,单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.
Jun, 2022
采用数据增强和 TTS 技术,对 ASR 的训练数据进行扩充,并通过集成语言模型,在 LibriSpeech 数据上建立 end-to-end 模型,相对于半监督技术的效果更好。
May, 2020
通过使用神经网络从大量未成对的文本中生成隐藏状态并重新训练 E2E-ASR 解码器,实现数据增强的自动语音识别方法,提高了性能和减少了未知词的数量。
Jul, 2018