利用数据增强提高低资源语音识别的准确性

May, 2023

利用数据增强提高低资源语音识别的准确性

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

Martijn Bartelds, Nay San, Bradley McDonnell, Dan Jurafsky, Martijn Wieling

TL;DR研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

Abstract

The performance of automatic speech recognition (ASR) systems has advanced substantially in recent years, particularly for languages for which a large amount of transcribed speech is available. Unfortunately, for low-re

发现论文，激发创造

高资源语音识别预训练改进低资源语音到文本翻译

本文研究通过使用大量训练数据的自动语音识别任务，对语音翻译进行预训练，以提高低资源环境下的语音翻译性能，其中预训练的声学模型起到了关键的作用，并且可用于不同语言对之间的翻译。经验证本方法效果显著，能够在真实的低资源任务中提高性能。

Sep, 2018

低资源语音识别预训练的分析

本文探讨了如何提高低资源语言的自动语音翻译质量，研究表明在高资源语言上训练端到端自动语音识别模型可以有效提高自动语音译文质量，作者发现最终自动语音译文质量的最佳预测因素是预训练的ASR模型的词错误率，并且研究发现预训练和数据增强对AST翻译质量的提高是互补的。

Oct, 2019

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和TTS技术，对ASR的训练数据进行扩充，并通过集成语言模型，在LibriSpeech数据上建立end-to-end模型，相对于半监督技术的效果更好。

May, 2020

低资源下克丘亚语自动语音识别的数据增强

本篇论文描述了一种基于数据增强的方法，使用wav2letter ++模型对Quechua进行语音识别的实验。通过将合成数据与文本增强相结合，将基本模型的识别错误率降低了8.73％，最终ASR模型的识别错误率为22.75％。

Jul, 2022

TTS增强通过旋转语言何时有用？

研究聚焦在如何利用高资源语言的已训练 TTS 系统，使其产生的合成语音能提高低资源语言的 ASR 性能。结果表明，使用数千个 TTS 合成文本-语音对并通过平衡真实数据可得到最佳结果，但过高的 TTS 质量可能会影响 ASR 性能。在瓜拉尼语和苏巴语等两种低资源语言上，应用这些发现可将 ASR 性能提高 64.5％和字符误差减少率 (CERR) 45.0％。

Jul, 2022

Master-ASR：用模块化学习实现跨语言可扩展性和低资源适应性的自动语音识别

提出了一种名为 METHODNS 的自动语音识别框架，通过模块化的方法实现低资源适应能力和多语言可扩展性，能够显著提高多语言和低资源语音识别的性能。

Jun, 2023

一种低资源语音识别的新型自训练方法

我们提出了一种自学习方法，用于低资源环境下的自动语音识别（ASR）。通过在小语种如旁遮普语中生成高度精确的伪标签，我们的方法在四个真实语音数据集上相对提高了14.94%的词错误率，并在Common Voice旁遮普语数据集上取得了最佳结果。

Aug, 2023

启用低资源语言的ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成ASR训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合ASR训练的长度，简化了资源稀缺语言中ASR系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的ASR模型性能。

Jun, 2024

探索数据量对极低资源语言自动语音识别的影响

本研究针对低资源自动语音识别（ASR）技术，关注两种濒危的南岛语言Amis和Seediq，探讨数据增强技术的有效性。通过提出一种多语种语料库的数据选择方案，利用自监督学习在低资源环境下进行预训练，从而显著提高ASR性能，展示了通过跨语言迁移学习进行数据增强的可行性和潜力。

Sep, 2024

通过多功能TTS增强低资源ASR：弥合数据鸿沟

本研究解决了自动语音识别（ASR）在低资源环境中的表现不足问题，尤其是在方言、口音和少数语言的应用中。论文提出了一种利用强大的文本到语音（TTS）模型进行ASR数据增强的方法，并通过大量实验验证了该方法的有效性与广泛的应用前景。研究表明，文本多样性、说话人多样性及合成数据量是影响ASR性能的关键因素，特别是首次探讨了文本多样性对性能提升的影响。

Oct, 2024