为增强 ASR 训练而选择文本转语音数据

May, 2023

为增强 ASR 训练而选择文本转语音数据

Towards Selection of Text-to-speech Data to Augment ASR Training

Shuo Liu, Leda Sarı, Chunyang Wu, Gil Keren, Yuan Shangguan...

TL;DR本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

Abstract

This paper presents a method for selecting appropriate synthetic speech samples from a given large text-to-speech (TTS) dataset as supplementary training data for an →

synthetic speech text-to-speech dataset automatic speech recognition neural network training data

发现论文，激发创造

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

TTS-by-TTS: 基于 TTS 的数据增强技术，实现快速高质量语音合成

本文提出了一种基于 TTS 的数据增强方法，用于改进非自回归 TTS 系统的质量，实验表明该方法显著提高了非自回归 TTS 系统的质量。

Oct, 2020

低资源表达文本朗读的分布增强

本文介绍了一种新的数据增强技术，用于文本到语音的任务，能够生成新的（文本，音频）训练样本，而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性，有助于减少过拟合，特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性，并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明，我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量，并能大大提高基于注意力的 TTS 模型的鲁棒性。

Feb, 2022

SynthASR: 用于语音识别的合成数据解锁

本文提出了一个多阶段训练策略，包括数据增强，编码器冻结和参数正则化，并利用人工合成音频提高医疗用途语音识别（ASR）的识别性能，降低了生产数据的成本和依赖性。

Jun, 2021

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

训练对话模型以更好地处理语音识别错误的数据增强

本文探讨了通过数据增强的方法，将 ASR 的噪声注入到对话模型的训练数据中，以提高虚拟助手的稳定性。

Jun, 2020