利用数据增强提高低资源语音识别的准确性
本文研究通过使用大量训练数据的自动语音识别任务,对语音翻译进行预训练,以提高低资源环境下的语音翻译性能,其中预训练的声学模型起到了关键的作用,并且可用于不同语言对之间的翻译。经验证本方法效果显著,能够在真实的低资源任务中提高性能。
Sep, 2018
本文探讨了如何提高低资源语言的自动语音翻译质量,研究表明在高资源语言上训练端到端自动语音识别模型可以有效提高自动语音译文质量,作者发现最终自动语音译文质量的最佳预测因素是预训练的ASR模型的词错误率,并且研究发现预训练和数据增强对AST翻译质量的提高是互补的。
Oct, 2019
采用数据增强和TTS技术,对ASR的训练数据进行扩充,并通过集成语言模型,在LibriSpeech数据上建立end-to-end模型,相对于半监督技术的效果更好。
May, 2020
本篇论文描述了一种基于数据增强的方法,使用wav2letter ++模型对Quechua进行语音识别的实验。通过将合成数据与文本增强相结合,将基本模型的识别错误率降低了8.73%,最终ASR模型的识别错误率为22.75%。
Jul, 2022
研究聚焦在如何利用高资源语言的已训练 TTS 系统,使其产生的合成语音能提高低资源语言的 ASR 性能。结果表明,使用数千个 TTS 合成文本-语音对并通过平衡真实数据可得到最佳结果,但过高的 TTS 质量可能会影响 ASR 性能。在瓜拉尼语和苏巴语等两种低资源语言上,应用这些发现可将 ASR 性能提高 64.5%和字符误差减少率 (CERR) 45.0%。
Jul, 2022
提出了一种名为 METHODNS 的自动语音识别框架,通过模块化的方法实现低资源适应能力和多语言可扩展性,能够显著提高多语言和低资源语音识别的性能。
Jun, 2023
我们提出了一种自学习方法,用于低资源环境下的自动语音识别(ASR)。通过在小语种如旁遮普语中生成高度精确的伪标签,我们的方法在四个真实语音数据集上相对提高了14.94%的词错误率,并在Common Voice旁遮普语数据集上取得了最佳结果。
Aug, 2023
本研究介绍了一种用于从有声读物生成ASR训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合ASR训练的长度,简化了资源稀缺语言中ASR系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的ASR模型性能。
Jun, 2024
本研究针对低资源自动语音识别(ASR)技术,关注两种濒危的南岛语言Amis和Seediq,探讨数据增强技术的有效性。通过提出一种多语种语料库的数据选择方案,利用自监督学习在低资源环境下进行预训练,从而显著提高ASR性能,展示了通过跨语言迁移学习进行数据增强的可行性和潜力。
Sep, 2024
本研究解决了自动语音识别(ASR)在低资源环境中的表现不足问题,尤其是在方言、口音和少数语言的应用中。论文提出了一种利用强大的文本到语音(TTS)模型进行ASR数据增强的方法,并通过大量实验验证了该方法的有效性与广泛的应用前景。研究表明,文本多样性、说话人多样性及合成数据量是影响ASR性能的关键因素,特别是首次探讨了文本多样性对性能提升的影响。
Oct, 2024