自动语音识别多语言模型综述
本文利用单个transformer模型及语言符号,针对低资源语言进行多语言语音识别,相较于SHL-MLSTM具有较高的识别精度。
Jun, 2018
本文介绍了一种单一的基于字形的ASR模型,采用标准的混合BLSTM-HMM声学模型以及晶格自由MMI目标进行学习,能对七种语言进行无歧义的识别,并且比每个单一语言的ASR模型表现更佳。同时,我们还评估了多种数据增强的方法,并且展示了这种提出的多语言字素混合ASR与各种数据增强不仅能识别任何训练集内的语言,还能大大提高ASR性能。
Sep, 2019
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的ASR模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9%、23%和28.8%。据我们所知,这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。
Jul, 2020
本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性,通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式,并通过熵分析发现少重叠语音的语言更易于跨语言传输,在融合单语言模型方面取得了相对于单语言识别的8%的改进。
Jul, 2022
该研究旨在通过跨语言知识转移和迭代伪标注的方法来提高语音识别系统对低资源语言的准确性,结果表明,使用这两种技术,可将错误率降低35%。
May, 2023
提出了一种名为 METHODNS 的自动语音识别框架,通过模块化的方法实现低资源适应能力和多语言可扩展性,能够显著提高多语言和低资源语音识别的性能。
Jun, 2023
本研究解决了将低资源语言整合到多语种自动语音识别系统中的挑战。通过在持续多语种学习背景下引入加权交叉熵的方法,研究表明该方法对低资源语言的语音识别效果显著提高,词错误率减少了6.69%,并且在六种语言中平均减少了3.29%的错误率,而高资源语言的表现未受到影响。
Sep, 2024