低资源语音识别的语音合成数据增强

Apr, 2022

低资源语音识别的语音合成数据增强

Text-To-Speech Data Augmentation for Low Resource Speech Recognition

Rodolfo Zevallos

TL;DR本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Abstract

Nowadays, the main problem of deep learning techniques used in the development of automatic speech recognition (ASR) models is the lack of transcribed data. The goal of this research is to propose a new data augm

deep learning automatic speech recognition data augmentation agglutinative languages low-resource languages

发现论文，激发创造

低资源下克丘亚语自动语音识别的数据增强

本篇论文描述了一种基于数据增强的方法，使用 wav2letter ++ 模型对 Quechua 进行语音识别的实验。通过将合成数据与文本增强相结合，将基本模型的识别错误率降低了 8.73％，最终 ASR 模型的识别错误率为 22.75％。

Jul, 2022

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

低资源表达文本朗读的分布增强

本文介绍了一种新的数据增强技术，用于文本到语音的任务，能够生成新的（文本，音频）训练样本，而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性，有助于减少过拟合，特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性，并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明，我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量，并能大大提高基于注意力的 TTS 模型的鲁棒性。

Feb, 2022

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

TTS-by-TTS: 基于 TTS 的数据增强技术，实现快速高质量语音合成

本文提出了一种基于 TTS 的数据增强方法，用于改进非自回归 TTS 系统的质量，实验表明该方法显著提高了非自回归 TTS 系统的质量。

Oct, 2020

TTS 增强通过旋转语言何时有用？

研究聚焦在如何利用高资源语言的已训练 TTS 系统，使其产生的合成语音能提高低资源语言的 ASR 性能。结果表明，使用数千个 TTS 合成文本 - 语音对并通过平衡真实数据可得到最佳结果，但过高的 TTS 质量可能会影响 ASR 性能。在瓜拉尼语和苏巴语等两种低资源语言上，应用这些发现可将 ASR 性能提高 64.5％和字符误差减少率 (CERR) 45.0％。

Jul, 2022

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018