用于自动语音识别的合成跨口音数据增强
本文研究跨语种多人语音合成以及跨语种语音转换,并将其应用于自动语音识别(ASR)系统的数据增强。经过大量实验,我们证明了通过使用仅一个目标语言说话者进行模型训练,可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距,并通过我们的数据增强方法,在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。
Mar, 2022
通过使用可训练的码书的交叉注意力,我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法,该方法可以捕捉特定口音的信息,并在 ASR 编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练,结果显示我们的方法不仅在已知的英语口音上获得显著性能提升(词错误率相对改进高达 37%),还在未知口音上获得了最高 5% 的相对改进。同时,我们还在 L2Artic 数据集上展示了零 - shot 传输设置的优势,并与基于口音对抗训练的其他方法进行了性能比较。
Oct, 2023
利用 LibriSpeech 数据集,将合成语音与自然语音数据集相结合,使用神经网络训练的端到端自动语音识别模型达到了最新的状态,极大地推动了自动语音识别技术的进步。
Nov, 2018
本研究旨在提出一种新的数据增强方法来改善自动语音识别模型,该方法生成合成文本和合成音频,使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率(WER)达到 8.73%的改善。
Apr, 2022
该研究提出了一种新颖的非自回归框架用于口音转换,通过学习口音无关的语言表示并使用它们来转换源语音中的口音,从而保留说话者的身份。研究还调查了在我们提出的框架中的本地数据和不同声学特征的预训练策略的有效性,并使用主客观度量来全面评估了我们方法的性能。评估结果突出了预训练策略和丰富的语义特征的益处,显著提高了音频质量和可理解性。
Jan, 2024
本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法,并证明仅需使用语音文本数据就可对 ASR 系统进行增强,相对于数据扩充的基线模型,本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。
Dec, 2019