Master-ASR:用模块化学习实现跨语言可扩展性和低资源适应性的自动语音识别
本文介绍了一种单一的基于字形的ASR模型,采用标准的混合BLSTM-HMM声学模型以及晶格自由MMI目标进行学习,能对七种语言进行无歧义的识别,并且比每个单一语言的ASR模型表现更佳。同时,我们还评估了多种数据增强的方法,并且展示了这种提出的多语言字素混合ASR与各种数据增强不仅能识别任何训练集内的语言,还能大大提高ASR性能。
Sep, 2019
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的ASR模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9%、23%和28.8%。据我们所知,这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。
Jul, 2020
本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统,能够在极低资源的情况下支持资料匮乏的语言,并通过三个关键技术来优化模型,包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求,在语音识别方面达到了很好的识别精度,并且需要非常少的训练数据。
Aug, 2020
该论文提出了一种稀疏的多语言自动语音识别模型(ASR pathways),其激活特定于语言的子网络(“路径”),从而显式地学习每种语言的参数,具有更好的性能表现。
Sep, 2022
通过利用语音和文本资源采用适应和微调技术,提高了印度语言Bengali和Bhojpuri的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠ASR方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
在这项研究中,我们发现了Whisper这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了DistilWhisper方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的ASR性能。
May, 2024
本研究介绍了一种用于从有声读物生成ASR训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合ASR训练的长度,简化了资源稀缺语言中ASR系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的ASR模型性能。
Jun, 2024
本研究针对低资源语言的自动语音识别(ASR)中标注数据稀缺的问题,探讨了如何通过结合参数高效微调与文本适应方法来提升性能。采用多语言多模态模型SeamlessM4T,该方法能够有效利用未标注文本,且在无标记语音的零样本设定中实现了最高17%的错误率减少,展示了跨语言迁移的潜力。
Oct, 2024