用于口语识别的预训练方法:TalTech 在 OLR 2021 挑战赛中的提交
XLSR 是一种学习跨语言语音表示的模型,通过对多种语言的语音原始波形进行预训练来构建模型,上述模型建立在 wav2vec 2.0 的基础之上,可以使用单一模型完成多语言语音识别任务,并且具有更好的性能。
Jun, 2020
本文通过在多种低资源语言的未标注同语言音频数据上使用 XLSR-53 预训练模型进行持续预训练来改进自动语音识别的性能,结果表明持续预训练在单词错误率方面与半监督训练的效果相当且更加高效。
Jul, 2022
使用预训练的 wav2vec 2.0 和 MBART50 模型,结合自适应权重技术,显著提高公共数据集上多语言语音识别的准确性,比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。
May, 2022
本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能,其中采用国际音标(IPA)多语言模型为无标签语音创建帧级伪标签,并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明,该方法在所有目标语言上均优于标准 HuBERT,并且在 3 种语言中表现更佳,同时最多能够节省 1.5k 小时(75%)有监督训练数据。
May, 2023
本文通过采用 Conformer 架构,在多语言预训练模型中扩展了以往的自监督方法,我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地,我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性,无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后,我们实现了类似于语言识别当前最先进系统的结果。此外,我们的模型参数比当前系统少了五倍,并通过 NVIDIA NeMo 工具包开源了该模型。
Nov, 2022
本文研究了两个多语言语音模型在适应未见语言上的性能比较,发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现,与预训练方法的差异不相关。
May, 2023
本研究提出了 CLSRIL-23,一种基于自监督学习的音频预训练模型,可以在 23 种印度语言的原始音频中学习跨语言的语音表示。在预训练期间,将语言特定的语音表示分别比较以比较单语和多语预训练的效果。我们的实验证明,多语预训练优于单语预训练,能够学习对语言进行编码并在下游任务中达到更好的性能。
Jul, 2021
本文介绍了在大数据集上通过预训练机器学习模型和微调等方法,利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估,并取得成功的实验结果。
Jun, 2022
本文通过使用发音特征将多种训练语言的音素映射到目标语言中,对多语言预训练的 wav2vec 2.0 模型进行微调,以在没有标记数据的情况下提高其对未见过的语言的识别能力,并在实验中取得了较优效果。
Sep, 2021