SynthASR: 用于语音识别的合成数据解锁

Jun, 2021

SynthASR: 用于语音识别的合成数据解锁

SynthASR: Unlocking Synthetic Data for Speech Recognition

Amin Fazel, Wei Yang, Yulan Liu, Roberto Barra-Chicote, Yixiong Meng...

TL;DR本文提出了一个多阶段训练策略，包括数据增强，编码器冻结和参数正则化，并利用人工合成音频提高医疗用途语音识别（ASR）的识别性能，降低了生产数据的成本和依赖性。

Abstract

End-to-end (E2E) automatic speech recognition (ASR) models have recently demonstrated superior performance over the traditional hybrid ASR models. Training an E2E ASR model requires a large amount of data which is not only expensive but may also raise dependency on production data. At the same time, →

end-to-end automatic speech recognition text-to-speech engines continual learning synthetic speech multi-stage training

发现论文，激发创造

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

通过有效的文本数据利用和潜在合成提高端到端语音处理效果

通过训练一个转换文本数据的潜在合成器，我们提出了一种高效的文本数据利用框架 Latent Synthesis (LaSyn)，用于 E2E 语音处理模型。在低资源自动语音识别（ASR）和口语理解（SLU）任务中，LaSyn 通过为模型训练提供了伪声学表示的文本数据，分别在不同测试集上使 E2E 基线的词错误率降低了 22.3% 以上，并提高了意图分类准确率 4.1% 和槽位填充准确率 3.8%，在 STOP 上分别提高了 4.49% 和 2.25% 的准确率。同时，LaSyn 使用更少的参数，取得了与现有最先进作品相媲美的结果，证明了增强训练数据的质量。

Oct, 2023

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023

具有有限数量丰富训练数据的端到端联合丰富和标准化 ASR

比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统，其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录，第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能，相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性，误差增加了 2.42% 绝对值。

Nov, 2023

使用合成数据的端到端自适应语音识别系统的简单基线

本文提出了一种简单的基线技术，使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据，并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调，结果表明，单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.

Jun, 2022

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

基于反向翻译的端到端自动语音识别数据增强

通过使用神经网络从大量未成对的文本中生成隐藏状态并重新训练 E2E-ASR 解码器，实现数据增强的自动语音识别方法，提高了性能和减少了未知词的数量。

Jul, 2018