用单个Transformer 实现多语言低资源语音端到端识别
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的ASR模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9%、23%和28.8%。据我们所知,这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。
Jul, 2020
本篇论文提出了一种适应性激活网络,用于深度学习ASR模型的上层,并将不同的激活函数应用于不同的语言,通过交叉语言学习和多语言学习优化模型,达到了在IARPA Babel数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升,结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。
May, 2022
本研究提出了一个名为Distill-L2S的新方法,将一个已经训练好的跨语言语言模型转移到语音识别模型中,通过该方法在20种低资源语言中达到了优越性能。
Jun, 2022
通过将多个低资源语言聚集在一起来实现地区组多语言Transformer LM的最佳性能,使得Monolingual LM候选模型表现更佳且减少维护成本和运营费用。
Sep, 2022
提出了一种名为 METHODNS 的自动语音识别框架,通过模块化的方法实现低资源适应能力和多语言可扩展性,能够显著提高多语言和低资源语音识别的性能。
Jun, 2023
本研究解决了将低资源语言整合到多语种自动语音识别系统中的挑战。通过在持续多语种学习背景下引入加权交叉熵的方法,研究表明该方法对低资源语言的语音识别效果显著提高,词错误率减少了6.69%,并且在六种语言中平均减少了3.29%的错误率,而高资源语言的表现未受到影响。
Sep, 2024