针对大规模多语言 ASR 的端到端模型扩展
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的 ASR 模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9%、23%和 28.8%。据我们所知,这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。
Jul, 2020
本文研究了 70 种语言的大规模多语种 ASR 模型,并通过优化多重嵌入和输出模型的标记化策略,相对于单一语种模型,实现了 13.9%-15.6% 的平均 WER 改进,并展示了其泛化性和零样本学习能力在 Multilingual Librispeech 上高达 9.5% 的 WER 表现。
Nov, 2022
本研究旨在构建一个大型语言模型 BLOOM,对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究,并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。
Oct, 2022
本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果,并提出了可衡量计算优化性的缩放规律,并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。
May, 2023
本文研究使用基于 Transformer 的语言模型,比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示,当模型或数据规模增大时,在音频与语言预测方面均能获得显著性提升,这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。
May, 2023
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
本文研究了基于 Transformer 模型的多语言自动语音识别模型,提出了一种多语言的反推算法用于提高模型的识别能力,实验结果显示,相较于单语言算法,该算法的识别误差平均降低了 4%,在某些语言上甚至有 14% 的提升,且该算法可以进行并行化处理。
Oct, 2022
使用神经模型重编程的参数高效学习框架,可在跨语音识别中重新利用训练良好的英文自动语音识别模型,实现大规模预训练 ASR 成功,提高了训练效率。
Jan, 2023
提出了一种名为 METHODNS 的自动语音识别框架,通过模块化的方法实现低资源适应能力和多语言可扩展性,能够显著提高多语言和低资源语音识别的性能。
Jun, 2023