ASR2K:2千个左右的语言的语音识别(无需音频)
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的ASR模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9%、23%和28.8%。据我们所知,这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。
Jul, 2020
本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统,能够在极低资源的情况下支持资料匮乏的语言,并通过三个关键技术来优化模型,包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求,在语音识别方面达到了很好的识别精度,并且需要非常少的训练数据。
Aug, 2020
研究表明,在没有成对的语音和文本的情况下,可以使用其他语言的字符级声学模型引导新语言的无监督自动语音识别系统,方法基于两个主要组成部分:使用其他语言AM生成目标语言的伪标签并用目标语言模型加以约束。
May, 2023
提出了一种名为 METHODNS 的自动语音识别框架,通过模块化的方法实现低资源适应能力和多语言可扩展性,能够显著提高多语言和低资源语音识别的性能。
Jun, 2023
通过引入相似、高资源语言的数据,可以提高低资源语言的自动语音识别性能,并且通过计算基于诱导声学单元的序列分布的声学令牌分布相似度 (ATDS),能够准确预测目标语言的ASR性能。
Feb, 2024
Killkan是第一个专注于Kichwa语(厄瓜多尔的一种土著语言)的自动语音识别(ASR)数据集,包含约4小时的音频及转录、西班牙语翻译和形态句法注释等信息,旨在为这种极度资源匮乏和濒危的语言提供自然语言处理应用的资源建设。本研究还通过基于语料库的分析,特别关注Kichwa语的合成构词和与西班牙语的频繁语码混用,实验证明即使数据集规模较小,也能实现可靠质量的Kichwa语ASR系统的开发。该数据集、ASR模型和开发所使用的代码将公开提供,积极展示了对资源建设及其在资源匮乏语言及其社区中的应用。
Apr, 2024
本研究介绍了一种用于从有声读物生成ASR训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合ASR训练的长度,简化了资源稀缺语言中ASR系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的ASR模型性能。
Jun, 2024
这篇论文介绍了GigaSpeech 2,一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库,它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程,以及通过修改的Noisy Student Training来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性,并且相比于Whisper large-v3模型,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上可以将词错误率降低25%至40%。同时,与商业服务相比,基于GigaSpeech 2训练的ASR模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。
Jun, 2024
本研究解决了将低资源语言整合到多语种自动语音识别系统中的挑战。通过在持续多语种学习背景下引入加权交叉熵的方法,研究表明该方法对低资源语言的语音识别效果显著提高,词错误率减少了6.69%,并且在六种语言中平均减少了3.29%的错误率,而高资源语言的表现未受到影响。
Sep, 2024
本研究针对低资源语言伊卡语,提出了一种成本效益高的自动语音识别(ASR)模型开发方法。通过对预训练的多语种wav2vec 2.0模型进行微调,结果表明该模型在仅用1小时训练数据的情况下取得了0.5377的字错误率和0.2651的字符错误率,展示了利用多语言预训练模型对低资源语言的潜力。
Oct, 2024