Nov, 2022

意外学习者:多语言自监督模型中的口语识别

TL;DR本文通过采用 Conformer 架构,在多语言预训练模型中扩展了以往的自监督方法,我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地,我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性,无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后,我们实现了类似于语言识别当前最先进系统的结果。此外,我们的模型参数比当前系统少了五倍,并通过 NVIDIA NeMo 工具包开源了该模型。