跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

Mar, 2022

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

ASR data augmentation using cross-lingual multi-speaker TTS and cross-lingual voice conversion

Edresson Casanova, Christopher Shulby, Alexander Korolev, Arnaldo Candido Junior, Anderson da Silva Soares...

TL;DR本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Abstract

We explore cross-lingual multi-speaker speech synthesis and cross-lingu

cross-lingual multi-speaker speech synthesis automatic speech recognition data augmentation

发现论文，激发创造

数据增强用于文本转语音的跨说话人风格转移

使用语音转换进行数据增强，构建单说话人多风格的 TTS 系统，实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。

Feb, 2022

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

TTS 增强通过旋转语言何时有用？

研究聚焦在如何利用高资源语言的已训练 TTS 系统，使其产生的合成语音能提高低资源语言的 ASR 性能。结果表明，使用数千个 TTS 合成文本 - 语音对并通过平衡真实数据可得到最佳结果，但过高的 TTS 质量可能会影响 ASR 性能。在瓜拉尼语和苏巴语等两种低资源语言上，应用这些发现可将 ASR 性能提高 64.5％和字符误差减少率 (CERR) 45.0％。

Jul, 2022

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

SkinAugment: 自动编码说话人转换用于自动语音翻译

本论文提出了使用自动编码说话人转换进行数据增强的方法，通过直接转换音频序列，使其合成声音与另一位说话人类似。我们的方法在英语到法语和英语到罗马尼亚语的自动语音翻译任务上比 SpecAugment 效果更好。同时，我们还展示了数据增强的数量和多样性的好处，并证明了我们可以将该方法与机器翻译的转录结合起来，在英语到法语自动语音翻译任务上胜过一个非常强大的级联模型。该方法具有广泛适用性，可应用于其他语音生成和分析任务。

Feb, 2020

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

端到端混合语音识别的数据增强

本文提出了三种针对语种转换数据的增强方法，即音频接合、TTS 和单词转换或插入生成语料，并展示了这些方法对基于端到端自动语音识别系统（ASR）的语种转换系统的性能提升，这些方法可结合近期热门技术 SpecAugment 使用，相对于没有数据增强的系统，WER 显著降低了 24.0％，相对于只有 SpecAugment 的系统还有 13.0％的收益。

Nov, 2020

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023