针对合成数据生成的文本转语音模型选择问题研究

Jul, 2024

针对合成数据生成的文本转语音模型选择问题研究

On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition

Nick Rossenbach, Ralf Schlüter, Sakriani Sakti

TL;DR本研究解决了在自动语音识别中选择合成数据生成的文本转语音模型所面临的挑战。通过比较五种不同的TTS解码器架构，我们发现没有明确的性能关系，同时提出了一种量化TTS泛化能力的方法。研究结果表明，自回归解码在数据生成中优于非自回归解码，可能对语音识别训练产生显著影响。

Abstract

The rapid development of neural Text-to-Speech (TTS) systems enabled its usage in other areas of natural language processing such as Automatic Speech Recognition (ASR) or spoken language translation (SLT). Due to

发现论文，激发创造

使用合成语音增强训练神经语音识别系统

利用LibriSpeech数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对ASR系统进行增强，相对于数据扩充的基线模型，本方法在LibriSpeech-100h上获得了高达33%的错误率降低并且相对于最新ASR基线模型在LibriSpeech-960h上也获得了高达5%的未识别词率降低。

Dec, 2019

神经语音合成调查

本文全面调研了神经网络TTS在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

TTS增强通过旋转语言何时有用？

研究聚焦在如何利用高资源语言的已训练 TTS 系统，使其产生的合成语音能提高低资源语言的 ASR 性能。结果表明，使用数千个 TTS 合成文本-语音对并通过平衡真实数据可得到最佳结果，但过高的 TTS 质量可能会影响 ASR 性能。在瓜拉尼语和苏巴语等两种低资源语言上，应用这些发现可将 ASR 性能提高 64.5％和字符误差减少率 (CERR) 45.0％。

Jul, 2022

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023

为增强ASR训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本—语音转换（TTS）数据的大小。

May, 2023

关于合成训练数据中音素持续时间变异性对自动语音识别的相关性

通过生成的合成数据以及时长建模来改进低资源环境或领域不匹配任务中的自动语音识别系统，并使用半监督方法在改进中合成数据的语音识别系统中取得了改进。

Oct, 2023

BASE TTS：基于100K小时数据构建亿参数的文本转语音模型的经验教训

我们介绍了一个名为BASE TTS的文本转语音(TTS)模型，它是迄今为止最大的TTS模型，以100K小时的公共领域语音数据进行训练，在语音自然度方面取得了最新的最佳效果。

Feb, 2024

语音语言模型的指导数据生成和无监督适应

我们提出了三种方法来生成合成样本，以训练和评估能够处理文本和语音输入的多模态大语言模型。通过解决包含多种模态的样本的稀缺性问题，合成数据生成成为提高这些系统性能并促进语音和文本领域的跨模态关系建模的关键策略。我们使用大型语言模型生成文本组件和文本到语音系统生成语音组件的过程。所提出的方法提供了一种实用且有效的扩展这些模型训练数据集的方式。实验结果表明，在理解文本和语音方面取得了进展。我们还强调了使用未标注的语音数据来生成质量可与有可用转录的样本媲美的合成样本的潜力，从而使这些模型能够更多地应用于其他语言。

Jun, 2024

关于不同自动语音识别架构中纯合成训练数据的影响

本研究解决了合成数据在自动语音识别（ASR）训练中的有效性问题。通过使用合成的文本到语音系统（类似于FastSpeech-2），我们探讨了ASR模型对合成数据的敏感性，特别是通过不同的发音嵌入和模型规模的变化。研究结果表明，合成数据与真实数据之间的表现差距可以通过合理的模型调整得到改善，为ASR系统的训练方法提供了新的见解。

Jul, 2024