基于无监督文本到语音合成的数据增强的口音语音识别的改进

Jul, 2024

基于无监督文本到语音合成的数据增强的口音语音识别的改进

Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis

Cong-Thanh Do, Shuhei Imai, Rama Doddipatla, Thomas Hain

TL;DR本文研究了无监督文本到语音合成作为数据增强方法，以改进口音语音识别的应用。使用少量带有口音的训练数据和其伪标签进行无监督训练的语音合成系统，可以将带有口音的语音数据应用于口音语音识别的数据增强。通过使用该语音合成系统从文本提示生成合成的带有口音的语音数据，并与现有的无口音语音数据结合，用于训练自动语音识别系统。在使用大量无监督带有口音语音数据预训练的Wav2vec2.0模型的自监督学习框架中，进行自动语音识别实验。用于训练无监督语音合成系统的带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库，而用于评估的语料库则是爱丁堡国际英语口音的自发性对话语音。实验结果表明，将由无监督语音合成生成的合成带有口音的语音数据用于微调下游的Wav2vec2.0模型，相较于使用Librispeech语料库中的无口音语音数据进行微调的Wav2vec2.0基线模型，可以减小6.1％相对字错误率。

Abstract

This paper investigates the use of unsupervised text-to-speech synthesis (TTS) as a data augmentation method to improve accented speech recogniti

发现论文，激发创造

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和TTS技术，对ASR的训练数据进行扩充，并通过集成语言模型，在LibriSpeech数据上建立end-to-end模型，相对于半监督技术的效果更好。

May, 2020

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的10-20小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型, 通过学习Warped Mel-Spectrogram的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023

带有特定口音码书的口音识别

通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在ASR编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达37%），还在未知口音上获得了最高5%的相对改进。同时，我们还在L2Artic数据集上展示了零-shot传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Oct, 2023

使用非平行数据将从TTS中转移的语言表示进行口音转换

该研究提出了一种新颖的非自回归框架用于口音转换，通过学习口音无关的语言表示并使用它们来转换源语音中的口音，从而保留说话者的身份。研究还调查了在我们提出的框架中的本地数据和不同声学特征的预训练策略的有效性，并使用主客观度量来全面评估了我们方法的性能。评估结果突出了预训练策略和丰富的语义特征的益处，显著提高了音频质量和可理解性。

Jan, 2024